AI 时代的高端文件存储系统:IBM、DDN、Weka 和 VAST

在上一篇《一次无需调优的测试:SMT 多线程对存储服务器 IOPS 的贡献》结尾处,我提到了 IBM Storage Scale System 6000,和 VAST Data EBox 这两款高性能全闪存文件存储系统。

当今是 AI 大模型火爆的时代,春节期间的 IT 新闻几乎被 DeepSeek 给刷了屏。为了配合那些可扩展至千卡、万卡级别的 GPU/加速器集群,关于大模型应用中的存储负载特点,我在《AI 的存储需求:训练和 Checkpoint》中介绍过一些。该领域有代表性的文件存储厂商,我还在关注的还有国际上知名的 DDN,Weka.io 等。

最近正好看到一份来自 Weka 的性能对比数据,引起了我的兴趣。我想先分享给大家,然后再验证下其准确性和比较的合理性,看看是否能作为公平的参考:)

image.png

上面图表对比的 4 项性能指标,分别为读带宽、写带宽、读 IOPS 和写 IOPS。按照平均每 Rack Unit 即单位空间贡献的性能来比较,我觉得也还好,毕竟机箱大小与能容纳多少个 SSD,以及 CPU 算力/功率密度都有关。

具体的 4 款存储型号,WEKApod 是 1U 机箱;IBM ESS 3500 和 DDN AI400X2 是 2U 机箱;VAST 虽然也是 1U 机箱,但 Ceres DF30xx 本质上只是个 JBOF 盘框,其 Shared-Everything 文件系统架构在这里相对特别,我在下文中会进一步解释。

IBM 的 Storage Scale System 基于 GPFS(通用并行文件系统),DDN EXAScaler 系列应该是由 Lustre 开源文件系统改进而来。这两家老牌存储厂商,都是每节点机箱双控冗余(Active/Active)的设计,也可以理解为 per RU 的性能相当于 2U 里面 1 个控制器的水平。

可以看出,Weka 在读带宽和读 IOPS 方面领先,IBM ESS 3500 和 DDN AI400X2 大致持平,VAST 读带宽尚可而 IOPS 较低;写带宽和 IOPS DDN 表现最好,VAST 相对垫底,IBM 写带宽介于 DDN 和 Weka 之间(IBM 未公布写 IOPS 指标)。

从机箱/节点性能,推算 per Rack Unit 性能

我之前提到过 IBM SSS 6000 是目前该系列中性能最高的型号,所以下表中我就把 ESS 3500 换掉了。另外,下面我先直接对比每节点(机箱)的性能,然后再结合 Rack Units 占用机架高度进行讨论。

image.png

注 1:DDN 在官网公开资料中未公布其控制器(服务器节点)使用的 CPU,甚至都不强调使用了多少块盘。

注 2:本次参与对比的 VAST 系统为 Cbox(计算)+Dbox(存储)集群架构,Ceres DF30xx 的硬件来自 VAST 合作的 OEM/ODM 伙伴之一,该 1U 单元本质上是个 Dbox(JBOF),没有传统意义上的 CPU。

从每节点/机箱的性能来看,4U 的 IBM SSS 6000 明显处于优势,当然它配置的 48 个 NVMe SSD 盘、控制器 CPU 算力(共 4 颗 AMD EPYC 9004 48 核)应该也都是最高。

这个表格与前面 Weka 自己的对比,主要就是我替换了 IBM 的型号,所以可以再估一下 SSS 6000 每 Rack U 的性能:读带宽为 77.5GB/s(更接近 Weka),写带宽 38.75GB/s(略微超过 DDN AI400X2T),读 IOPS 3,250 k 也算超过 Weka 了吧。

总体来看,从性能角度上 Weka、IBM Storage Scale 和 DDN 应该算是各有所长吧。在 AI 训练和推理应用中,文件存储的带宽性能更重要。而 VAST 的特点可能不是绝对性能,不知他们在易用性和性价比方面是否有优势?特别是新发布的 Ebox“超融合”形态对称节点架构。

WEKApod:使用了 Dell R6615 服务器硬件

前面谈到的 4 家厂商,除了 DDN 之外应该都可以单独卖(分布式/并行)文件系统。比如在 Weka 网站上直接就可以看到搭配的服务器配置和型号。

https://docs.weka.io/wekapod/server-overview

Image

Image

与另外几家的产品类似,IBM 这份资料里给出的只是单系统(双控制器)的最高性能,SSS 6000 支持扩展到 1000 节点,理论上性能是可以倍增的。但如果在分布式存储中,配置为跨节点多副本或者纠删码保护,整个集群的性能(特别是写性能)就要另算了。

Image

就像上面 DDN 资料里写的“GPU-optimized”,还有“WEKApod”这样的命名,各家都想好了这类高性能文件存储系统的应用场景——就是搭配基于 GPU 等加速器的 AI 集群。

VAST:Cbox、Dbox 架构及 SCM SSD 的应用

Image

这张图来自一张较早的 VAST 架构,上半部分的“Server”是 Cbox,属于无状态的文件协议访问节点;后端的“HA Enclosure”则是 Dbox,其中除了 QLC SSD 之外,早期还使用 Optane SSD 做为写缓存。后来3D XPoint Memory 停掉了,VAST 应该是换成采用 SLC NAND 一类的高写入性能/寿命的 SSD。

在 Cbox 和 Dbox 前后端节点之间,采用以太网 NVMe over Fabric 连接,以共享全部 SSD。

Image

上图引用自https://www.storagereview.com/review/vast-data-ceres-data-nodes-launched-with-bluefield-e1-l-and-scm-on-board

我从网上找到了一张 3 年前的 VAST Data Ceres Data Nodes(Dbox)示意图,其中除了 22 个 E1.L SSD 和 8 个 NVRAM 盘(就是 SCM SSD)之外,2 个 HA 的 Canister 连接控制部分,主要就是用 PCIe Switch 加上 DPU(这里是 NV 的 BF 系列)。

扩展阅读:《NVMe-oF 存储扩展:EBOF、FBOF、EBOD 生态详解

由于 VAST 合作的硬件厂商不只一家,下面给大家出示下 HPE GreenLake for File Storage MP 的配置情况:

Image

从这个图表中,我们可以看到与前面列出的 VAST 型号性能较为接近,也是 1U Dbox(JBOF)22+8 盘的配置。

VAST 前端的 Cbox 文件访问节点也可能会影响性能,比如上表中的 2U 4 节点 Cbox 大致可以匹配 1 个 Dbox 的读写带宽。该型号中 Cbox 机箱最多配置 8 个,那么集群最大性能大家也可以算出来了。Dbox 最多可以加到 58 个,不过当前端存在瓶颈时就只是增加容量了。

以上是我有限的理解,本文中除了 VAST 之外的另外 3 家,理论上单集群性能扩展能力更强。但实际应用中,具体的需求、网络拓扑设计等也是要考虑的因素。有些情况下,也可能会配置 2 到多个存储集群。

GPU 集群参考架构中的存储推荐

Image

作为 AI Ready 的文件存储系统,支持 NVIDIA GPUDirect 访问也算是门槛之一吧。当然,现在符合该要求的还有 Dell PowerScale 等,应该也包括几家国内存储品牌,这块我了解有限就先不多聊了。

下图引用自《AMD Instinct™ MI300 Series Cluster Reference Architecture Guide》文档,其中推荐给 GPU 集群的存储系统如下:

Image

WEKAIO 和 IBM SSS 6000 获得了 AMD GPU 集群的推荐,一方面是因为他们在性能等方面的表现;另外他们两家最新、最高端的存储机型(本文针对“全闪存集群 NAS”)也是优选了 AMD EPYC CPU。

扩展阅读:《企业存储技术》文章分类索引更新(微信公众号合集标签)

:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)

END

作者:唐僧 huangliang
原文:企业存储技术

推荐阅读

欢迎关注企业存储技术极术专栏,欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
5624
内容数
284
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息