引言:伴随着UALink的出现,AMD也会在一_AMD的战略挺明显:今年MI350先把FP4/FP6性能追上来(B200);明年MI450再用UALink_些高端GPU中集成高速I/O枢纽,就像有的NVIDIA系统那样不再需要PCIe Switch了。_等互连技术加强,进一步缩小与NV(Rubin)之间的差距。_
接前文《Meta的GB200液冷AI服务器 - Catalina》
《HGX B200液冷AI服务器中的NVLink & PCIe Switch应用》
从以上2篇内容,以及我之前更多的讨论中(下文会逐渐展开),可以看出PCIe Switch在AI/GPU服务器中的作用,以及可能存在的限制。
GB200为“去PCIe Switch”指出了方向?
上图就是我之前列出过的,来自Meta技术文档《Catalina:Specification Contribution Review》的架构图。不知是不是硬件工程师对Scale-Up、Scale-Out这些概念有点混淆?在此之前大家(包括我在内)对这一点标识也没有太认真。
本文中关注的要点是:
-Scale-Up网络:从B200 GPU引出NVLink 5;
-Scale-Out网络:从Grace(Arm)CPU向后端引出2个CX7 400G网卡(都是走PCIe Gen5 x16),对应给1个GPU使用;
-SSD存储:每个CPU使用PCIe Gen5 x4连接2个E1.S NVMe盘;
-GPU与CPU互连:NVLink C2C。
NVIDIA在GB200上的做法,是用NVLink+定制化CPU来取代传统AI服务器中的PCIe Switch。
伴随着AMD前几天举办的Advancing AI 2025大会,公布了一些关于Instinct MI400以及“Helios”整机架的路线图,可以预见两大GPU厂商明年的角逐将会更有看点。
MI350 GPU服务器中的PCIe Switch
AMD当前发布的是Instinct MI350,伴随而来的还有OEM、ODM厂商的整机。上图中以Supermicro对应的服务器举例,8U风冷和4U液冷散热一共两款。
上图就是这款8U风冷GPU系统A+ Server® AS -8126GS-TNMR的主板示意图。Supermicro做得集成度比较高,我用红框标出的区域是4颗PCIe Switch,以及由其引出的下行至GPU、网卡和NVMe SSD的连接器。
我以前还介绍过Dell的PowerEdge XE9680:“_作为一款6U服务器,XE9680能支持到8个700W NVIDIA SXM GPU,或者基于OAM模块互连的8个750W的AMD INSTINCT MI300X,也支持900W的Intel Gaudi3 UBB。_”
上面是Supermicro这款A(AMD CPU)+ GPU服务器架构图,我又想起曾经在《DeepSeek时代:关于AI服务器的技术思考》中分享过的OCP(Meta)Grand Teton机型。
Grand Teton和Dell XE7745用的都是Broadcom 144 lanePCIe 5.0 Switch,而Supermicro选择了PEX89104(104 lane),成本应该会低一些。
总的来说,PCIe Switch在这些高端8 GPU AI服务器中的作用(价值),主要是以下2点:
- _CPU本身的PCIe lane有点不够,特别是还要同时连接多块高速Scale-out网卡、SSD时;_
- _连接在同一颗Switch上的GPU和网卡、SSD之间,数据通信可以不经过CPU,提高效率。_
同时,我也观察到PCIe Switch的应用可能存在一些短板:
- _按照性能无损的设计,每颗Switch芯片在连接2颗GPU时,另一侧连到CPU也要用2个PCIe x16。仅这些就消耗了64个PCIe lane;_
- _PCIe I/O本身并不是内存语义的。如果考虑到与PCIe共用物理层的CXL,是支持内存一致性,但受限于当前PCIe 5.0的带宽等因素,CXL并未受到NV和AMD GPU的青睐。_
当UALink遇上NVLink Fusion
大约2个月前我写过一篇《AI集群Scale-Up互连:展望UALink与NVLink的竞争》,在这里仍推荐给没看过的朋友,其中有些讨论今天也还可以参考吧。
在UALink开放标准出现后,NVIDIA也搞了个NVLink Fusion。当然NV也做了些限制:
- _NVLink若用于第三方CPU,只能连接NVIDIA GPU使用;_
- _反之,NVLink若用于第三方GPU(NPU/加速器),也只能连接NVIDIA CPU(Grace等)。_
参考下图:
大家知道NVIDIA今天的优势主要在于GPU(含CUDA生态)及互连,但Intel和AMD的CPU都没参与NVLink Fusion生态。恕我直言,当前只看到像富士通这样,想自己定制CPU来连接NV GPU做超算的会感兴趣?下面这段话是我引用的:
“_富士通正开发FUJITSU-MONAKA,一款基于2纳米工艺、Armv9架构的CPU,强调极致能效。其定制ARM核心性能超越NVIDIA的Grace CPU,通过NVLink C2C与NVIDIA GPU无缝互连,目标是打造可扩展、自主且可持续的AI系统。富士通表示,这将推动“世界领先的计算技术”发展。_”
余下的还有高通表态了。但我觉得Qualcomm还是先证明自己能把Arm服务器CPU做好吧,看看他们今天AI PC的市场表现…
Instinct MI450X:集成UALink&高速I/O枢纽
在AMD计划明年发布的 “Helios” AI机架中,Instinct MI400瞄准的竞争对手,也是NV下一代的Vera Rubin。
今天我重点讨论Scale Up和Scale Out互连方面。关于AMD在Scale Out带宽上能达到NV 1.5倍的性能,从前段时间SemiAnalysis的一篇爆料中似乎能找到答案。
上图仅转发,我并不确保其准确性。从CPU的角度来看,1颗Venice可以连接4个MI450X,还有用于存储、管理网络的800G的Pensando DPU(对应NV BlueField)等。
我翻译一段SemiAnalysis的原文供参考吧:
“_弹性 IO 通道应运而生。AMD并未为 PCIe 和规模扩展等不同类型的 IO 配备独立的SerDes和 IO 路径,而是采用了 144 条 IO 通道,这些通道可支持多种不同标准。它们能够支持 PCIe 6.0、64G 速率的Infinity Fabric、128G 速率的 UALink、128G 速率的 xGMI 4(其在某种程度上是 UALink 的超集),以及 212G 速率的以太网版 Infinity Fabric。这使 AMD 芯片团队能够针对各种不同的用例实现最大程度的灵活性。_”
假设SemiAnalysis的这个预测靠谱的话,以上图中每颗MI450 GPU为中心:
-Scale-Up网络:IFoE 72 lane @200G;
-Scale-Out网络:通过UALink连接到3个AMD 800G网卡,物理层相当于PCIe 6.0共48 lane(这一点NVIDIA Rubin是2个800G网卡吧?)
-SSD存储:PCIe 5.0 x4 SSD;
-GPU与CPU互连:xGMI4 128GB/s,速率相当于PCIe 6.0 x16。
这里我尝试解释几点:
- _IFoE应该是在可以直接跑在标准以太网交换机上的Infinity Fabric,机箱外部的UALink连接要等后续支持的交换机出来吧;_
- _当前的MI300系列GPU通过PCIe x16连接CPU,而GPU之间互连早就是Infinity Fabric,所以MI450通过xGMI4连接Venice CPU也很正常;_
- _800G网卡通过UALink与GPU连接,相比PCIe的好处在哪?我不是网络方面的专家,不过如果把MI450看成一个集成高速I/O的枢纽,Infinity Fabric是不是相当于把Scale-Up和Scale-Out网络给打通了?_
下面这张截图,是我在之前文章中写的。现在看有些技术点更清晰了。
AMD Pensando的Ultra Ethernet(UEC超级以太网)卡,下一代代号为Vulcano的是800G速率。主机接口支持UALink或PCIe,取决于连接什么CPU——专用还是通用平台。
2027下一代AI Rack:Verano CPU+MI500 GPU
在AMD的演讲结尾处还列出了一张2027年的Next Gen AI Rack。从现有的公开资料我们能了解到什么信息呢?
点开图片——放到最大,我只看到一种机箱(Tray),是1U 36 Node吧。仅从这张图,还分不出计算Tray和交换Tray。
2027年有一点遥远了,我还是更期待明年Venice和MI400系列的落地。尽管AMD在预集成的整机架AI Rack中去掉了PCIe Switch,但使用PCIe与CPU连接的GPU/NPU加速器一定还会存在(无论OAM还是PCIe插卡形态)。到时候,我们还能看到基于EPYC的x86开放平台AI服务器。
参考资料
https://www.amd.com/content/d...
END
作者:唐僧 huangliang
原文:企业存储技术
推荐阅读
- Fastllm:DeepSeek R1-0528 CPU+GPU混合推理加速方案
- 供电、散热资料分享:OCP AI/ML Physical Infra Workshop 2
- OCP AI/ML 研讨会资料:数据中心机架、供电、散热
- HGX B200 液冷 AI 服务器中的 NVLink & PCIe Switch 应用
欢迎关注企业存储技术极术专栏,欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。