AI超节点Scale-Up展望:为什么NV和AMD都要“消除”PCIe Switch?

引言:伴随着UALink的出现,AMD也会在一_AMD的战略挺明显:今年MI350先把FP4/FP6性能追上来(B200);明年MI450再用UALink_些高端GPU中集成高速I/O枢纽,就像有的NVIDIA系统那样不再需要PCIe Switch了。_等互连技术加强,进一步缩小与NV(Rubin)之间的差距。_

接前文《Meta的GB200液冷AI服务器 - Catalina

HGX B200液冷AI服务器中的NVLink & PCIe Switch应用

从以上2篇内容,以及我之前更多的讨论中(下文会逐渐展开),可以看出PCIe Switch在AI/GPU服务器中的作用,以及可能存在的限制。

GB200为“去PCIe Switch”指出了方向?

图片

上图就是我之前列出过的,来自Meta技术文档《Catalina:Specification Contribution Review》的架构图。不知是不是硬件工程师对Scale-Up、Scale-Out这些概念有点混淆?在此之前大家(包括我在内)对这一点标识也没有太认真。

本文中关注的要点是:

-Scale-Up网络:从B200 GPU引出NVLink 5;

-Scale-Out网络:从Grace(Arm)CPU向后端引出2个CX7 400G网卡(都是走PCIe Gen5 x16),对应给1个GPU使用;

-SSD存储:每个CPU使用PCIe Gen5 x4连接2个E1.S NVMe盘;

-GPU与CPU互连:NVLink C2C。

NVIDIA在GB200上的做法,是用NVLink+定制化CPU来取代传统AI服务器中的PCIe Switch。

伴随着AMD前几天举办的Advancing AI 2025大会,公布了一些关于Instinct MI400以及“Helios”整机架的路线图,可以预见两大GPU厂商明年的角逐将会更有看点。

MI350 GPU服务器中的PCIe Switch

图片

AMD当前发布的是Instinct MI350,伴随而来的还有OEM、ODM厂商的整机。上图中以Supermicro对应的服务器举例,8U风冷和4U液冷散热一共两款。

图片

上图就是这款8U风冷GPU系统A+ Server® AS -8126GS-TNMR的主板示意图。Supermicro做得集成度比较高,我用红框标出的区域是4颗PCIe Switch,以及由其引出的下行至GPU、网卡和NVMe SSD的连接器。

我以前还介绍过Dell的PowerEdge XE9680:“_作为一款6U服务器,XE9680能支持到8个700W NVIDIA SXM GPU,或者基于OAM模块互连的8个750W的AMD INSTINCT MI300X,也支持900W的Intel Gaudi3 UBB。_”

图片

上面是Supermicro这款A(AMD CPU)+ GPU服务器架构图,我又想起曾经在《DeepSeek时代:关于AI服务器的技术思考》中分享过的OCP(Meta)Grand Teton机型。

Grand Teton和Dell XE7745用的都是Broadcom 144 lanePCIe 5.0 Switch,而Supermicro选择了PEX89104(104 lane),成本应该会低一些。

总的来说,PCIe Switch在这些高端8 GPU AI服务器中的作用(价值),主要是以下2点:

- _CPU本身的PCIe lane有点不够,特别是还要同时连接多块高速Scale-out网卡、SSD时;_

- _连接在同一颗Switch上的GPU和网卡、SSD之间,数据通信可以不经过CPU,提高效率。_

同时,我也观察到PCIe Switch的应用可能存在一些短板

- _按照性能无损的设计,每颗Switch芯片在连接2颗GPU时,另一侧连到CPU也要用2个PCIe x16。仅这些就消耗了64个PCIe lane;_

- _PCIe I/O本身并不是内存语义的。如果考虑到与PCIe共用物理层的CXL,是支持内存一致性,但受限于当前PCIe 5.0的带宽等因素,CXL并未受到NV和AMD GPU的青睐。_

当UALink遇上NVLink Fusion

图片

大约2个月前我写过一篇《AI集群Scale-Up互连:展望UALink与NVLink的竞争》,在这里仍推荐给没看过的朋友,其中有些讨论今天也还可以参考吧。

图片

在UALink开放标准出现后,NVIDIA也搞了个NVLink Fusion。当然NV也做了些限制:

- _NVLink若用于第三方CPU,只能连接NVIDIA GPU使用;_

- _反之,NVLink若用于第三方GPU(NPU/加速器),也只能连接NVIDIA CPU(Grace等)。_

参考下图:

图片

大家知道NVIDIA今天的优势主要在于GPU(含CUDA生态)及互连,但Intel和AMD的CPU都没参与NVLink Fusion生态。恕我直言,当前只看到像富士通这样,想自己定制CPU来连接NV GPU做超算的会感兴趣?下面这段话是我引用的:

“_富士通正开发FUJITSU-MONAKA,一款基于2纳米工艺、Armv9架构的CPU,强调极致能效。其定制ARM核心性能超越NVIDIA的Grace CPU,通过NVLink C2C与NVIDIA GPU无缝互连,目标是打造可扩展、自主且可持续的AI系统。富士通表示,这将推动“世界领先的计算技术”发展。_”

余下的还有高通表态了。但我觉得Qualcomm还是先证明自己能把Arm服务器CPU做好吧,看看他们今天AI PC的市场表现…

Instinct MI450X:集成UALink&高速I/O枢纽

图片

在AMD计划明年发布的 “Helios” AI机架中,Instinct MI400瞄准的竞争对手,也是NV下一代的Vera Rubin。

今天我重点讨论Scale Up和Scale Out互连方面。关于AMD在Scale Out带宽上能达到NV 1.5倍的性能,从前段时间SemiAnalysis的一篇爆料中似乎能找到答案。

图片

上图仅转发,我并不确保其准确性。从CPU的角度来看,1颗Venice可以连接4个MI450X,还有用于存储、管理网络的800G的Pensando DPU(对应NV BlueField)等。

我翻译一段SemiAnalysis的原文供参考吧:

“_弹性 IO 通道应运而生。AMD并未为 PCIe 和规模扩展等不同类型的 IO 配备独立的SerDes和 IO 路径,而是采用了 144 条 IO 通道,这些通道可支持多种不同标准。它们能够支持 PCIe 6.0、64G 速率的Infinity Fabric、128G 速率的 UALink、128G 速率的 xGMI 4(其在某种程度上是 UALink 的超集),以及 212G 速率的以太网版 Infinity Fabric。这使 AMD 芯片团队能够针对各种不同的用例实现最大程度的灵活性。_”

假设SemiAnalysis的这个预测靠谱的话,以上图中每颗MI450 GPU为中心:

-Scale-Up网络:IFoE 72 lane @200G;

-Scale-Out网络:通过UALink连接到3个AMD 800G网卡,物理层相当于PCIe 6.0共48 lane(这一点NVIDIA Rubin是2个800G网卡吧?)

-SSD存储:PCIe 5.0 x4 SSD;

-GPU与CPU互连:xGMI4 128GB/s,速率相当于PCIe 6.0 x16。

这里我尝试解释几点:

- _IFoE应该是在可以直接跑在标准以太网交换机上的Infinity Fabric,机箱外部的UALink连接要等后续支持的交换机出来吧;_

- _当前的MI300系列GPU通过PCIe x16连接CPU,而GPU之间互连早就是Infinity Fabric,所以MI450通过xGMI4连接Venice CPU也很正常;_

- _800G网卡通过UALink与GPU连接,相比PCIe的好处在哪?我不是网络方面的专家,不过如果把MI450看成一个集成高速I/O的枢纽,Infinity Fabric是不是相当于把Scale-Up和Scale-Out网络给打通了?_

下面这张截图,是我在之前文章中写的。现在看有些技术点更清晰了。

图片

图片

AMD Pensando的Ultra Ethernet(UEC超级以太网)卡,下一代代号为Vulcano的是800G速率。主机接口支持UALink或PCIe,取决于连接什么CPU——专用还是通用平台。

2027下一代AI Rack:Verano CPU+MI500 GPU

图片

在AMD的演讲结尾处还列出了一张2027年的Next Gen AI Rack。从现有的公开资料我们能了解到什么信息呢?

图片

点开图片——放到最大,我只看到一种机箱(Tray),是1U 36 Node吧。仅从这张图,还分不出计算Tray和交换Tray。

2027年有一点遥远了,我还是更期待明年Venice和MI400系列的落地。尽管AMD在预集成的整机架AI Rack中去掉了PCIe Switch,但使用PCIe与CPU连接的GPU/NPU加速器一定还会存在(无论OAM还是PCIe插卡形态)。到时候,我们还能看到基于EPYC的x86开放平台AI服务器。

参考资料

https://www.amd.com/content/d...

END

作者:唐僧 huangliang
原文:企业存储技术

推荐阅读

欢迎关注企业存储技术极术专栏,欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
5628
内容数
293
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息