焱融科技 · 3月20日 · 北京市

最佳实践|焱融全闪存储实现与美的集团破千万 IOPS 性能

1.jpg
焱融全闪文件存储完成国内制造业首个双 200Gb 网络聚合分布式文件存储集群部署,实现 AI 计算平台破千万 IOPS 性能。

后疫情时代,个人与居家环境的关系悄然地发生着变化。随着人们在家里花费的时间更多,打造舒适、便捷、智能化的居家生活环境成为不少人关注的方向,智能家居让生活变得更高效更有趣。

美的集团是一家全球 500 强企业,其业务覆盖智能家居、楼宇科技,工业技术、机器人与自动化和数字化创新业务五大板块。近些年来,美的重新定义行业智能标准,通过技术革新推动用户连接体验提升,将“全面数字化、全面智能化”作为企业发展的战略体系。2021年10月,美的就创新性地提出结合物理空间、互联网空间、虚拟空间的“元家居”的概念,基于感知、通信、AI、大数据、虚拟现实等基础技术,实现数字家庭孪生,提供全新的物联网应用与交互体验,让用户享受更深入的智能服务。

庞大的数据规模 存储架构升级刻不容缓

美的 AI 创新中心在技术方面有六个研究方向,即语音,计算机视觉,导航,边端智能,知识图谱,机器人学习。随着美的人工智能创新中心 GPU 服务器节点规模以及数据规模的不断增长,对存储系统的容量、性能和可管理性提出更为苛刻的要求。目前正使用的存储方案普遍是针对标准的负载类型,在需要满足数据密集型应用负载的数据访问需求时迎来很大挑战。现阶段美的人工智能创新中心面临以下问题:

  • 随着日益增长的数据,现阶段小文件数量已达 10 亿,预计后期可能突破百亿级别,现有的存储性能随着数据量的增长呈现衰减趋势;
  • 随着 GPU 服务器的增多,客户端的并发数呈现指数级别的增长,目前的并发节点已突破上百台,并发节点越多越容易出现客户端夯死或者崩溃的情况;
  • 在日常模型训练过程中,存储端的性能瓶颈尤为突出,使得整个 GPU 集群无法发挥出极限性能,训练效率极大地降低;
  • 现有的存储在对接上层容器业务显得越发吃力,无法为容器化训练提供持久化和灵活化的访问能力;

焱融在和美的一起对业务逻辑进行深度的分析和梳理,发现美的人工智能创新中心对于存储的需求需要满足以下几点:

  1. 支撑数千台节点的高并发访问而不崩溃;
  2. 保证模型训练中存储的高 IOPS、高带宽、低延时的访问能力,为 GPU 服务器提供足够高的存储数据传输带宽,充分释放 GPU 算力;
  3. 支撑百亿级别的文件的读写性能和元数据操作性能,满足大量特征文件或聚合后的文件的存储需求;
  4. 可以为上层训练模型应用提供标准文件接口用于数据访问,并为容器化的训练任务提供灵活的数据访问能力;
  5. 可以兼容高性能网络,能够支持最高 400Gb 的 IB 网络,能将存储能力通过高性能网络供给到计算层,完成数据流转;

美的需要解决以上问题来满足 AI 计算场景对存储的极高 IOPS 和带宽、极低延时需求,支撑整个创新中心的算法工程师的人工智能模型的开发和训练。

全闪文件存储为美的打造高性能 AI 训练平台

基于以上诉求,本次方案建设目标是:

  • 升级训练平台,提升算力,加速开发和训练 AI 模型,提升企业数字化竞争力;
  • 构建能够匹配大规模 GPU 计算集群数据访问需求的存储与网络系统。将计算、网络、存储三个核心能力达成完美匹配,最大化提升整体平台算力输出,以满足客户业务需求和整体 AI 训练效率的提升,更好地支撑算法工程师开发和训练人工智能模型。

焱融全闪分布式文件存储达成了存储性能与建设成本兼顾的解决方案,弹性空间扩展能力,有效平衡数据存储成本。结合 InfiniBand 技术和追光 F8000X 针对海量小文件高并发访问等方面的优化设计,获得了超高性能表现。同时,得益于分布式存储架构、数据智能加载和分层功能,针对异构存储并存的应用场景,灵活高效地驱动数据在不同存储平台流动,方便用户组织数据集进行计算分析;使用 F8000X 将数据按照生命周期管理策略分层到本地低速存储或者云端,对业务端提供统一命名空间,降低使用复杂度,提升了数据存储使用的经济性。

  • 集群内单存储节点性能可达 200 万 IOPS 性能,40GB/s 带宽;
  • 支持横向扩展,性能随节点线性提升,在 6 存储节点下,性能可达 1000 万+ IOPS,200GB/s +带宽;

以下是解决方案中的基本组件:
存储系统:焱融追光 F8000X 全闪分布式存储一体机集群
计算系统:多卡 GPU 服务器集群
网络系统:NVIDIA Quantum InfiniBand Switch & 万兆以太网络
2.jpg

• AI 训练平台(指高性能场景)与一般性业务(指非高性能场景)采用不同的网络接入方案,兼具性能、可靠性和经济性:
• AI 训练集群:AI 训练集群中 GPU 计算节点通过两台 NVIDIA QUANTUM QM8700 网络交换机与焱融全闪一体机 F8000XD 存储集群互联。冗余的网络设计确保连接到网络的每台设备之间无阻塞数据通信。在确保集群高性能运转的同时保证其具备优秀的容错能力,实现高可用;
• 数据预处理集群:服务器集群通过万兆网络交换机统一接入焱融全闪一体机 F8000XD 存储集群。通过原有万兆交换机接入上层非高性能业务,提供标注、清洗等业务的支撑;
• 以上 AI 训练平台和一般性业务平台由一套焱融 F8000X 全闪存储系统承载,避免数据访问孤岛;

焱融全闪一体机 F8000X 是国内少有的具备超高性能,支持多张 IB 网卡带宽性能聚合能力,在采用 Round Robin 模式,在大 IO 场景下可以轻松跑满全部网卡性能,单个存储节点可以达到 40GB/s 带宽和 200万以上的 IOPS 的极致性能。同时支持多网卡的 failover 以及自动检测的 failback 功能,避免链路故障造成的业务中断。

破千万 IOPS 性能、训练时间缩短了 71%

通过实测数据证实,焱融 F8000X 全闪分布式文件存储系统构建的 AI 计算共享存储平台,能够满足大规模 GPU 计算集群的高并发数据访问,并根据业务要求可以同步扩展性能和容量。有效消除了存储性能瓶颈,充分释放了 GPU 计算潜力,能够轻松应对各种数据密集型工作负载性能要求,满足业务快速发展的需求。如下图所示焱融追光 F8000X 全闪存储系统能够随着集群规模的扩展线性平滑的提升性能:
3.jpg

由图可见,6 台焱融 F8000X 全闪存储组成存储集群,输出 1000 万+ IOPS 和 200GB+ 带宽的稳定性能,完美支持客户 AI 平台计算集群高并发数据访问需求,训练时间缩短了 71% ,并大幅提升训练精度;

焱融科技作为国内唯一专注于文件存储的厂商通过其核心技术优势率先支持 400Gbps InfiniBand 网络,打造 AI 时代 GPU 计算的高性能存储,产品性能达到行业领先。在保证高带宽输出的基础上,不仅满足 AI 计算场景对存储的要求,还大大降低了数据访问延迟,为美的集团人工智能创新中心提供强大的存储性能支撑。

🔍 预了解更多高性能存储解决方案,您可直接访问:https://www.yanrongyun.com/zh...

推荐阅读
关注数
14
文章数
122
软件定义的混合云统一文件存储
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息