焱融科技 · 2022年06月06日

大容量、高性能,国家级实验室分布式并行文件存储实践

近年来,北京、上海和粤港澳大湾区科创中心、综合性国家科学中心建设如火如荼,国内已经出现一批科技创新领先,有力支撑国家技术发展的新型科研机构。在人工智能、信息网络、生物技术等战略性产业中,新型科研机构需要借助具有创新性、引领性的基础设施,不断探索未知领域,为颠覆技术创新而努力。

作为国家级的网络通信领域新型科研机构(以下简称:实验室),实验室聚焦宽带通信和新型网络等重要战略任务,以网络通信、网络空间和网络智能为主要研究方向,开展领域内战略性、前瞻性、基础性重大科学问题和关键核心技术研究。

在发展过程中,该实验室选择引入前沿的分布式并行文件存储技术,搭建起超大容量的存储集群,支撑其在智能交通、计算机视觉、自然语言、自动驾驶、智慧医疗等方面的实验研究训练数据。

打造双轮驱动模式,建设高性能存储支柱

该实验室坚持以重大任务攻关和重大科技基础设施与平台建设为牵引,以科技创新和体制机制创新为主线,深入探索在社会主义市场经济条件下,关键核心技术攻关新型举国体制,建成了若干重大科技基础设施与平台,发布了多语言机器翻译平台,以及中文预训练语言模型等一系列重大应用。

为了进一步打造“重点项目+基础研究”的双轮驱动特色科研模式,该实验室需建设一个能全方位支撑研究训练的存储平台,满足实验室在技术研究过程中的数据训练需求。在建造新型数据中心的过程中,性能、可扩展能力、安全性等是重点考虑的因素:

  • 性能方面,在每次 AI 训练过程中,需要访问数 TB 左右的数据,这部分数据需要被几百个计算节点同时访问,导致其对存储吞吐量和数据加速度的要求极高。因此新建设的 IT 基础设施必须满足性能高、存储空间大的特点;
  • 可扩展能力方面,在当前的效能计算体系中,该实验室需要搭建 64PB 的高速并行可扩展存储,主要面向于国家重大战略项目中的智能训练,其中包含着不少图片、视频、语音等非结构化数据。然而传统存储体系,无论是 DAS(直连存储设备),还是 NAS 矩阵,不仅很难支撑海量的数据存储需求,更是难以跟上数据激增的步伐,存储平台的可扩展性也十分重要;
  • 安全性方面,工信部在不断建立健全行业数据安全保障体系,实验室在建立存储平台过程中也要时刻关注数据安全性问题,在探索新技术研究应用过程中,也要实现安全防护技术的智能化和自主可控。

    一站式分布式并行文件存储,满足数据平台全方位需求

焱融科技在服务过的大量客户实践案例中,遇到过不少类似的情况,不仅拥有丰富的方案经验,而且核心产品 YRCloudFile 也在相似案例中稳定运行多年。经过多次测试和考察,该实验室最终选择与焱融科技达成此次合作,共同建设高性能的国家级数据平台。

在这样的背景下,该实验室选择部署超过 1800 块磁盘存储集群,为项目提供了接近 30PB 的高速并行文件存储空间,同时配合 200Gb 的超高宽带网络和磁盘的混合搭配,完美实现存储集群从 0-1 的搭建,不仅满足了超大容量的需求,而且也能实现在数据量突发增长时,快速扩容,不影响训练情况。

YRCloudFile 整体架构.png
通过焱融科技提供的存储方案,该实验室搭建起大规模高速并行可扩展存储的数据平台,满足了基础研究需要的同时,有了更多的收获:

  • 算力跃迁:相较于常见的分布式存储和传统存储,其在面向人工智能的小文件场景和高性能计算并发时,存储性能和并发性能都有一定程度的限制,难以达到最优效果。焱融科技自主研发的数据传输协议基于 RDMA 技术的 InfiniBand 网络,实现了超过 400GB/s 的数据吞吐带宽,且超高带宽的实现也为平台性能再次加码,形成点对点的传输方式,让数据传输效率提升近 60%,加速计算周期。
  • 数据保密性极强:数据存放采用了焱融科技并发分布式文件存储,让数据以切片的形式存在不同的存储节点上,同时实现多节点备份。让别有用心的人即使从存储节点上拿走了磁盘,也无法读取到完整的数据。大大提升了数据的安全性,让数据可以得到永久的存储,从根本解决了数据安全问题。
  • 成本和性能极致平衡:在 AI 训练过程中,YRCloudFile 文件存储系统的智能分层功能可以根据用户需要,自定义冷热数据策略,冷数据自动流动至低成本的对象存储并完成压缩,向上仍然为业务提供标准的文件访问接口,并保持目录结构不变,数据在冷热数据层之间流动对业务完全透明,能有效地对成本和性能做好平衡。
  • 易用性极高:YRCloudFile 所具备的全对称、可扩展的元数据集群架构,支持实验室在面对数十亿文件时,对元数据的操作性能以及读写性能持续保持稳定。同时,YRCloudFile 已经完美兼容适配当前国内外多个 Kubernetes 发行版,包括但不限于 Rancher、灵雀云、浪潮云、博云、谐云等。

    YRCloudFile 铸基国家级实验室基础设施建设

实验室采用焱融科技 YRCloudFile 提供的解决方案,打造了一套高性能、高可用、高扩展性的 IT 存储基础设施,有效实现数字孪生建模、仿真、交互、在线服务等技术突破,并支撑示范应用、智能人机交互关键技术的突破,为实验室技术快速落地提供了关键支撑。

数据平台作为数据的中心、计算的中心、网络的中心,支撑着信息技术的加速创新。同时,数据平台作为互联网和各行业数字化的技术实体,应用于生产生活的多个环节,支撑技术创新快速发展。焱融科技作为一家高性能文件存储和容器存储的领导者,长期致力于为各大企业日益增长的海量数据提供优质的存储、管理和应用服务。未来,焱融科技将持续为更多创新型科研机构提供强力存储支撑。

推荐阅读
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息