AI 时代的高端文件存储系统：IBM、DDN、Weka 和 VAST

在上一篇《一次无需调优的测试：SMT 多线程对存储服务器 IOPS 的贡献》结尾处，我提到了 IBM Storage Scale System 6000，和 VAST Data EBox 这两款高性能全闪存文件存储系统。

当今是 AI 大模型火爆的时代，春节期间的 IT 新闻几乎被 DeepSeek 给刷了屏。为了配合那些可扩展至千卡、万卡级别的 GPU/加速器集群，关于大模型应用中的存储负载特点，我在《AI 的存储需求：训练和 Checkpoint》中介绍过一些。该领域有代表性的文件存储厂商，我还在关注的还有国际上知名的 DDN，Weka.io 等。

最近正好看到一份来自 Weka 的性能对比数据，引起了我的兴趣。我想先分享给大家，然后再验证下其准确性和比较的合理性，看看是否能作为公平的参考：）

上面图表对比的 4 项性能指标，分别为读带宽、写带宽、读 IOPS 和写 IOPS。按照平均每 Rack Unit 即单位空间贡献的性能来比较，我觉得也还好，毕竟机箱大小与能容纳多少个 SSD，以及 CPU 算力/功率密度都有关。

具体的 4 款存储型号，WEKApod 是 1U 机箱；IBM ESS 3500 和 DDN AI400X2 是 2U 机箱；VAST 虽然也是 1U 机箱，但 Ceres DF30xx 本质上只是个 JBOF 盘框，其 Shared-Everything 文件系统架构在这里相对特别，我在下文中会进一步解释。

IBM 的 Storage Scale System 基于 GPFS（通用并行文件系统），DDN EXAScaler 系列应该是由 Lustre 开源文件系统改进而来。这两家老牌存储厂商，都是每节点机箱双控冗余（Active/Active）的设计，也可以理解为 per RU 的性能相当于 2U 里面 1 个控制器的水平。

可以看出，Weka 在读带宽和读 IOPS 方面领先，IBM ESS 3500 和 DDN AI400X2 大致持平，VAST 读带宽尚可而 IOPS 较低；写带宽和 IOPS DDN 表现最好，VAST 相对垫底，IBM 写带宽介于 DDN 和 Weka 之间（IBM 未公布写 IOPS 指标）。

从机箱/节点性能，推算 per Rack Unit 性能

我之前提到过 IBM SSS 6000 是目前该系列中性能最高的型号，所以下表中我就把 ESS 3500 换掉了。另外，下面我先直接对比每节点（机箱）的性能，然后再结合 Rack Units 占用机架高度进行讨论。

注 1：DDN 在官网公开资料中未公布其控制器（服务器节点）使用的 CPU，甚至都不强调使用了多少块盘。

注 2：本次参与对比的 VAST 系统为 Cbox（计算）+Dbox（存储）集群架构，Ceres DF30xx 的硬件来自 VAST 合作的 OEM/ODM 伙伴之一，该 1U 单元本质上是个 Dbox（JBOF），没有传统意义上的 CPU。

从每节点/机箱的性能来看，4U 的 IBM SSS 6000 明显处于优势，当然它配置的 48 个 NVMe SSD 盘、控制器 CPU 算力（共 4 颗 AMD EPYC 9004 48 核）应该也都是最高。

这个表格与前面 Weka 自己的对比，主要就是我替换了 IBM 的型号，所以可以再估一下 SSS 6000 每 Rack U 的性能：读带宽为 77.5GB/s（更接近 Weka），写带宽 38.75GB/s（略微超过 DDN AI400X2T），读 IOPS 3,250 k 也算超过 Weka 了吧。

总体来看，从性能角度上 Weka、IBM Storage Scale 和 DDN 应该算是各有所长吧。在 AI 训练和推理应用中，文件存储的带宽性能更重要。而 VAST 的特点可能不是绝对性能，不知他们在易用性和性价比方面是否有优势？特别是新发布的 Ebox“超融合”形态对称节点架构。

WEKApod：使用了 Dell R6615 服务器硬件

前面谈到的 4 家厂商，除了 DDN 之外应该都可以单独卖（分布式/并行）文件系统。比如在 Weka 网站上直接就可以看到搭配的服务器配置和型号。

https://docs.weka.io/wekapod/server-overview

与另外几家的产品类似，IBM 这份资料里给出的只是单系统（双控制器）的最高性能，SSS 6000 支持扩展到 1000 节点，理论上性能是可以倍增的。但如果在分布式存储中，配置为跨节点多副本或者纠删码保护，整个集群的性能（特别是写性能）就要另算了。

就像上面 DDN 资料里写的“GPU-optimized”，还有“WEKApod”这样的命名，各家都想好了这类高性能文件存储系统的应用场景——就是搭配基于 GPU 等加速器的 AI 集群。

VAST：Cbox、Dbox 架构及 SCM SSD 的应用

这张图来自一张较早的 VAST 架构，上半部分的“Server”是 Cbox，属于无状态的文件协议访问节点；后端的“HA Enclosure”则是 Dbox，其中除了 QLC SSD 之外，早期还使用 Optane SSD 做为写缓存。后来3D XPoint Memory 停掉了，VAST 应该是换成采用 SLC NAND 一类的高写入性能/寿命的 SSD。

在 Cbox 和 Dbox 前后端节点之间，采用以太网 NVMe over Fabric 连接，以共享全部 SSD。

上图引用自https://www.storagereview.com/review/vast-data-ceres-data-nodes-launched-with-bluefield-e1-l-and-scm-on-board

我从网上找到了一张 3 年前的 VAST Data Ceres Data Nodes（Dbox）示意图，其中除了 22 个 E1.L SSD 和 8 个 NVRAM 盘（就是 SCM SSD）之外，2 个 HA 的 Canister 连接控制部分，主要就是用 PCIe Switch 加上 DPU（这里是 NV 的 BF 系列）。

扩展阅读：《NVMe-oF 存储扩展：EBOF、FBOF、EBOD 生态详解》

由于 VAST 合作的硬件厂商不只一家，下面给大家出示下 HPE GreenLake for File Storage MP 的配置情况：

从这个图表中，我们可以看到与前面列出的 VAST 型号性能较为接近，也是 1U Dbox（JBOF）22+8 盘的配置。

VAST 前端的 Cbox 文件访问节点也可能会影响性能，比如上表中的 2U 4 节点 Cbox 大致可以匹配 1 个 Dbox 的读写带宽。该型号中 Cbox 机箱最多配置 8 个，那么集群最大性能大家也可以算出来了。Dbox 最多可以加到 58 个，不过当前端存在瓶颈时就只是增加容量了。

以上是我有限的理解，本文中除了 VAST 之外的另外 3 家，理论上单集群性能扩展能力更强。但实际应用中，具体的需求、网络拓扑设计等也是要考虑的因素。有些情况下，也可能会配置 2 到多个存储集群。

GPU 集群参考架构中的存储推荐

作为 AI Ready 的文件存储系统，支持 NVIDIA GPUDirect 访问也算是门槛之一吧。当然，现在符合该要求的还有 Dell PowerScale 等，应该也包括几家国内存储品牌，这块我了解有限就先不多聊了。

下图引用自《AMD Instinct™ MI300 Series Cluster Reference Architecture Guide》文档，其中推荐给 GPU 集群的存储系统如下：

WEKAIO 和 IBM SSS 6000 获得了 AMD GPU 集群的推荐，一方面是因为他们在性能等方面的表现；另外他们两家最新、最高端的存储机型（本文针对“全闪存集群 NAS”）也是优选了 AMD EPYC CPU。

扩展阅读：《企业存储技术》文章分类索引更新（微信公众号合集标签）

注：本文只代表作者个人观点，与任何组织机构无关，如有错误和不足之处欢迎在留言中批评指正。如果您想在这个公众号上分享自己的技术干货，也欢迎联系我：）

END

作者：唐僧 huangliang
原文：企业存储技术

推荐阅读

欢迎关注企业存储技术极术专栏，欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。

推荐阅读

目录