在上一篇《一次无需调优的测试:SMT 多线程对存储服务器 IOPS 的贡献》结尾处,我提到了 IBM Storage Scale System 6000,和 VAST Data EBox 这两款高性能全闪存文件存储系统。
当今是 AI 大模型火爆的时代,春节期间的 IT 新闻几乎被 DeepSeek 给刷了屏。为了配合那些可扩展至千卡、万卡级别的 GPU/加速器集群,关于大模型应用中的存储负载特点,我在《AI 的存储需求:训练和 Checkpoint》中介绍过一些。该领域有代表性的文件存储厂商,我还在关注的还有国际上知名的 DDN,Weka.io 等。
最近正好看到一份来自 Weka 的性能对比数据,引起了我的兴趣。我想先分享给大家,然后再验证下其准确性和比较的合理性,看看是否能作为公平的参考:)
上面图表对比的 4 项性能指标,分别为读带宽、写带宽、读 IOPS 和写 IOPS。按照平均每 Rack Unit 即单位空间贡献的性能来比较,我觉得也还好,毕竟机箱大小与能容纳多少个 SSD,以及 CPU 算力/功率密度都有关。
具体的 4 款存储型号,WEKApod 是 1U 机箱;IBM ESS 3500 和 DDN AI400X2 是 2U 机箱;VAST 虽然也是 1U 机箱,但 Ceres DF30xx 本质上只是个 JBOF 盘框,其 Shared-Everything 文件系统架构在这里相对特别,我在下文中会进一步解释。
IBM 的 Storage Scale System 基于 GPFS(通用并行文件系统),DDN EXAScaler 系列应该是由 Lustre 开源文件系统改进而来。这两家老牌存储厂商,都是每节点机箱双控冗余(Active/Active)的设计,也可以理解为 per RU 的性能相当于 2U 里面 1 个控制器的水平。
可以看出,Weka 在读带宽和读 IOPS 方面领先,IBM ESS 3500 和 DDN AI400X2 大致持平,VAST 读带宽尚可而 IOPS 较低;写带宽和 IOPS DDN 表现最好,VAST 相对垫底,IBM 写带宽介于 DDN 和 Weka 之间(IBM 未公布写 IOPS 指标)。
从机箱/节点性能,推算 per Rack Unit 性能
我之前提到过 IBM SSS 6000 是目前该系列中性能最高的型号,所以下表中我就把 ESS 3500 换掉了。另外,下面我先直接对比每节点(机箱)的性能,然后再结合 Rack Units 占用机架高度进行讨论。
注 1:DDN 在官网公开资料中未公布其控制器(服务器节点)使用的 CPU,甚至都不强调使用了多少块盘。
注 2:本次参与对比的 VAST 系统为 Cbox(计算)+Dbox(存储)集群架构,Ceres DF30xx 的硬件来自 VAST 合作的 OEM/ODM 伙伴之一,该 1U 单元本质上是个 Dbox(JBOF),没有传统意义上的 CPU。
从每节点/机箱的性能来看,4U 的 IBM SSS 6000 明显处于优势,当然它配置的 48 个 NVMe SSD 盘、控制器 CPU 算力(共 4 颗 AMD EPYC 9004 48 核)应该也都是最高。
这个表格与前面 Weka 自己的对比,主要就是我替换了 IBM 的型号,所以可以再估一下 SSS 6000 每 Rack U 的性能:读带宽为 77.5GB/s(更接近 Weka),写带宽 38.75GB/s(略微超过 DDN AI400X2T),读 IOPS 3,250 k 也算超过 Weka 了吧。
总体来看,从性能角度上 Weka、IBM Storage Scale 和 DDN 应该算是各有所长吧。在 AI 训练和推理应用中,文件存储的带宽性能更重要。而 VAST 的特点可能不是绝对性能,不知他们在易用性和性价比方面是否有优势?特别是新发布的 Ebox“超融合”形态对称节点架构。
WEKApod:使用了 Dell R6615 服务器硬件
前面谈到的 4 家厂商,除了 DDN 之外应该都可以单独卖(分布式/并行)文件系统。比如在 Weka 网站上直接就可以看到搭配的服务器配置和型号。
https://docs.weka.io/wekapod/server-overview
与另外几家的产品类似,IBM 这份资料里给出的只是单系统(双控制器)的最高性能,SSS 6000 支持扩展到 1000 节点,理论上性能是可以倍增的。但如果在分布式存储中,配置为跨节点多副本或者纠删码保护,整个集群的性能(特别是写性能)就要另算了。
就像上面 DDN 资料里写的“GPU-optimized”,还有“WEKApod”这样的命名,各家都想好了这类高性能文件存储系统的应用场景——就是搭配基于 GPU 等加速器的 AI 集群。
VAST:Cbox、Dbox 架构及 SCM SSD 的应用
这张图来自一张较早的 VAST 架构,上半部分的“Server”是 Cbox,属于无状态的文件协议访问节点;后端的“HA Enclosure”则是 Dbox,其中除了 QLC SSD 之外,早期还使用 Optane SSD 做为写缓存。后来3D XPoint Memory 停掉了,VAST 应该是换成采用 SLC NAND 一类的高写入性能/寿命的 SSD。
在 Cbox 和 Dbox 前后端节点之间,采用以太网 NVMe over Fabric 连接,以共享全部 SSD。
我从网上找到了一张 3 年前的 VAST Data Ceres Data Nodes(Dbox)示意图,其中除了 22 个 E1.L SSD 和 8 个 NVRAM 盘(就是 SCM SSD)之外,2 个 HA 的 Canister 连接控制部分,主要就是用 PCIe Switch 加上 DPU(这里是 NV 的 BF 系列)。
扩展阅读:《NVMe-oF 存储扩展:EBOF、FBOF、EBOD 生态详解》
由于 VAST 合作的硬件厂商不只一家,下面给大家出示下 HPE GreenLake for File Storage MP 的配置情况:
从这个图表中,我们可以看到与前面列出的 VAST 型号性能较为接近,也是 1U Dbox(JBOF)22+8 盘的配置。
VAST 前端的 Cbox 文件访问节点也可能会影响性能,比如上表中的 2U 4 节点 Cbox 大致可以匹配 1 个 Dbox 的读写带宽。该型号中 Cbox 机箱最多配置 8 个,那么集群最大性能大家也可以算出来了。Dbox 最多可以加到 58 个,不过当前端存在瓶颈时就只是增加容量了。
以上是我有限的理解,本文中除了 VAST 之外的另外 3 家,理论上单集群性能扩展能力更强。但实际应用中,具体的需求、网络拓扑设计等也是要考虑的因素。有些情况下,也可能会配置 2 到多个存储集群。
GPU 集群参考架构中的存储推荐
作为 AI Ready 的文件存储系统,支持 NVIDIA GPUDirect 访问也算是门槛之一吧。当然,现在符合该要求的还有 Dell PowerScale 等,应该也包括几家国内存储品牌,这块我了解有限就先不多聊了。
下图引用自《AMD Instinct™ MI300 Series Cluster Reference Architecture Guide》文档,其中推荐给 GPU 集群的存储系统如下:
WEKAIO 和 IBM SSS 6000 获得了 AMD GPU 集群的推荐,一方面是因为他们在性能等方面的表现;另外他们两家最新、最高端的存储机型(本文针对“全闪存集群 NAS”)也是优选了 AMD EPYC CPU。
扩展阅读:《企业存储技术》文章分类索引更新(微信公众号合集标签)
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)
END
作者:唐僧 huangliang
原文:企业存储技术
推荐阅读
- 一次无需调优的测试:SMT多线程对存储服务器IOPS的贡献
- zStorage 分布式存储系统的性能分析方法
- MLPerf Llama大模型推理测试:一款GPU独战NVIDIA群雄
- 反转:Dell 单路 EPYC 9005 服务器 CPU 支持到 400W
欢迎关注企业存储技术极术专栏,欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。