AI超节点Scale-Up展望：为什么NV和AMD都要“消除”PCIe Switch？

引言：伴随着UALink的出现，AMD也会在一_AMD的战略挺明显：今年MI350先把FP4/FP6性能追上来（B200）；明年MI450再用UALink_些高端GPU中集成高速I/O枢纽，就像有的NVIDIA系统那样不再需要PCIe Switch了。_等互连技术加强，进一步缩小与NV（Rubin）之间的差距。_

接前文《Meta的GB200液冷AI服务器 - Catalina》

《HGX B200液冷AI服务器中的NVLink & PCIe Switch应用》

从以上2篇内容，以及我之前更多的讨论中（下文会逐渐展开），可以看出PCIe Switch在AI/GPU服务器中的作用，以及可能存在的限制。

GB200为“去PCIe Switch”指出了方向？

上图就是我之前列出过的，来自Meta技术文档《Catalina：Specification Contribution Review》的架构图。不知是不是硬件工程师对Scale-Up、Scale-Out这些概念有点混淆？在此之前大家（包括我在内）对这一点标识也没有太认真。

本文中关注的要点是：

-Scale-Up网络：从B200 GPU引出NVLink 5；

-Scale-Out网络：从Grace（Arm）CPU向后端引出2个CX7 400G网卡（都是走PCIe Gen5 x16），对应给1个GPU使用；

-SSD存储：每个CPU使用PCIe Gen5 x4连接2个E1.S NVMe盘；

-GPU与CPU互连：NVLink C2C。

NVIDIA在GB200上的做法，是用NVLink+定制化CPU来取代传统AI服务器中的PCIe Switch。

伴随着AMD前几天举办的Advancing AI 2025大会，公布了一些关于Instinct MI400以及“Helios”整机架的路线图，可以预见两大GPU厂商明年的角逐将会更有看点。

MI350 GPU服务器中的PCIe Switch

AMD当前发布的是Instinct MI350，伴随而来的还有OEM、ODM厂商的整机。上图中以Supermicro对应的服务器举例，8U风冷和4U液冷散热一共两款。

上图就是这款8U风冷GPU系统A+ Server® AS -8126GS-TNMR的主板示意图。Supermicro做得集成度比较高，我用红框标出的区域是4颗PCIe Switch，以及由其引出的下行至GPU、网卡和NVMe SSD的连接器。

我以前还介绍过Dell的PowerEdge XE9680：“_作为一款6U服务器，XE9680能支持到8个700W NVIDIA SXM GPU，或者基于OAM模块互连的8个750W的AMD INSTINCT MI300X，也支持900W的Intel Gaudi3 UBB。_”

上面是Supermicro这款A(AMD CPU)+ GPU服务器架构图，我又想起曾经在《DeepSeek时代：关于AI服务器的技术思考》中分享过的OCP（Meta）Grand Teton机型。

Grand Teton和Dell XE7745用的都是Broadcom 144 lanePCIe 5.0 Switch，而Supermicro选择了PEX89104（104 lane），成本应该会低一些。

总的来说，PCIe Switch在这些高端8 GPU AI服务器中的作用（价值），主要是以下2点：

- _CPU本身的PCIe lane有点不够，特别是还要同时连接多块高速Scale-out网卡、SSD时；_

- _连接在同一颗Switch上的GPU和网卡、SSD之间，数据通信可以不经过CPU，提高效率。_

同时，我也观察到PCIe Switch的应用可能存在一些短板：

- _按照性能无损的设计，每颗Switch芯片在连接2颗GPU时，另一侧连到CPU也要用2个PCIe x16。仅这些就消耗了64个PCIe lane；_

- _PCIe I/O本身并不是内存语义的。如果考虑到与PCIe共用物理层的CXL，是支持内存一致性，但受限于当前PCIe 5.0的带宽等因素，CXL并未受到NV和AMD GPU的青睐。_

当UALink遇上NVLink Fusion

大约2个月前我写过一篇《AI集群Scale-Up互连：展望UALink与NVLink的竞争》，在这里仍推荐给没看过的朋友，其中有些讨论今天也还可以参考吧。

在UALink开放标准出现后，NVIDIA也搞了个NVLink Fusion。当然NV也做了些限制：

- _NVLink若用于第三方CPU，只能连接NVIDIA GPU使用；_

- _反之，NVLink若用于第三方GPU（NPU/加速器），也只能连接NVIDIA CPU（Grace等）。_

参考下图：

大家知道NVIDIA今天的优势主要在于GPU（含CUDA生态）及互连，但Intel和AMD的CPU都没参与NVLink Fusion生态。恕我直言，当前只看到像富士通这样，想自己定制CPU来连接NV GPU做超算的会感兴趣？下面这段话是我引用的：

“_富士通正开发FUJITSU-MONAKA，一款基于2纳米工艺、Armv9架构的CPU，强调极致能效。其定制ARM核心性能超越NVIDIA的Grace CPU，通过NVLink C2C与NVIDIA GPU无缝互连，目标是打造可扩展、自主且可持续的AI系统。富士通表示，这将推动“世界领先的计算技术”发展。_”

余下的还有高通表态了。但我觉得Qualcomm还是先证明自己能把Arm服务器CPU做好吧，看看他们今天AI PC的市场表现…

Instinct MI450X：集成UALink&高速I/O枢纽

在AMD计划明年发布的 “Helios” AI机架中，Instinct MI400瞄准的竞争对手，也是NV下一代的Vera Rubin。

今天我重点讨论Scale Up和Scale Out互连方面。关于AMD在Scale Out带宽上能达到NV 1.5倍的性能，从前段时间SemiAnalysis的一篇爆料中似乎能找到答案。

上图仅转发，我并不确保其准确性。从CPU的角度来看，1颗Venice可以连接4个MI450X，还有用于存储、管理网络的800G的Pensando DPU（对应NV BlueField）等。

我翻译一段SemiAnalysis的原文供参考吧：

“_弹性 IO 通道应运而生。AMD并未为 PCIe 和规模扩展等不同类型的 IO 配备独立的SerDes和 IO 路径，而是采用了 144 条 IO 通道，这些通道可支持多种不同标准。它们能够支持 PCIe 6.0、64G 速率的Infinity Fabric、128G 速率的 UALink、128G 速率的 xGMI 4（其在某种程度上是 UALink 的超集），以及 212G 速率的以太网版 Infinity Fabric。这使 AMD 芯片团队能够针对各种不同的用例实现最大程度的灵活性。_”

假设SemiAnalysis的这个预测靠谱的话，以上图中每颗MI450 GPU为中心：

-Scale-Up网络：IFoE 72 lane @200G；

-Scale-Out网络：通过UALink连接到3个AMD 800G网卡，物理层相当于PCIe 6.0共48 lane（这一点NVIDIA Rubin是2个800G网卡吧？）

-SSD存储：PCIe 5.0 x4 SSD；

-GPU与CPU互连：xGMI4 128GB/s，速率相当于PCIe 6.0 x16。

这里我尝试解释几点：

- _IFoE应该是在可以直接跑在标准以太网交换机上的Infinity Fabric，机箱外部的UALink连接要等后续支持的交换机出来吧；_

- _当前的MI300系列GPU通过PCIe x16连接CPU，而GPU之间互连早就是Infinity Fabric，所以MI450通过xGMI4连接Venice CPU也很正常；_

- _800G网卡通过UALink与GPU连接，相比PCIe的好处在哪？我不是网络方面的专家，不过如果把MI450看成一个集成高速I/O的枢纽，Infinity Fabric是不是相当于把Scale-Up和Scale-Out网络给打通了？_

下面这张截图，是我在之前文章中写的。现在看有些技术点更清晰了。

AMD Pensando的Ultra Ethernet（UEC超级以太网）卡，下一代代号为Vulcano的是800G速率。主机接口支持UALink或PCIe，取决于连接什么CPU——专用还是通用平台。

2027下一代AI Rack：Verano CPU+MI500 GPU

在AMD的演讲结尾处还列出了一张2027年的Next Gen AI Rack。从现有的公开资料我们能了解到什么信息呢？

点开图片——放到最大，我只看到一种机箱（Tray），是1U 36 Node吧。仅从这张图，还分不出计算Tray和交换Tray。

2027年有一点遥远了，我还是更期待明年Venice和MI400系列的落地。尽管AMD在预集成的整机架AI Rack中去掉了PCIe Switch，但使用PCIe与CPU连接的GPU/NPU加速器一定还会存在（无论OAM还是PCIe插卡形态）。到时候，我们还能看到基于EPYC的x86开放平台AI服务器。

参考资料

https://www.amd.com/content/d...

END

作者：唐僧 huangliang
原文：企业存储技术

推荐阅读

欢迎关注企业存储技术极术专栏，欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。

推荐阅读

目录