企业存储技术 · 2024年12月09日

3U 8卡:对 AI 推理服务器意味着什么?

目录

- 3U 机架式服务器的驱动因素
- PCIe Switch 与 GPU 直通 CPU 的区别
- OCP Grand Teton AI 服务器:训练和推理的配置异同
- EDSFF SSD、EPYC CPU 散热器一瞥
-  支持 MI308X GPU 的服务器,来自谁家…
- 2U 4 节点双路 500W CPU:风冷/液冷?

上周四(12 月 5 日)在北京举办的“AMD Advancing AI 中国解决方案峰会”,我去看个热闹。参展的服务器 OEM、ODM 厂商、展出的机型数量都比较可观,有点让我感觉回到几年前灯厂(樱桃司)同类市场活动的感觉。

我还看到一个特点,就是现场的样机大约半数以上为 GPU 服务器机型,显然受当今 AI 热潮的影响。大家既然来露个脸,非 GPU 优化的传统服务器感觉新意不大吧。

虽然我拍了不少照片,但由于时间和精力有限,只能挑一些重点分享给大家。受限于个人水平,以及对各家服务器机型的了解,如描述有误或不足支持还望多包涵、指正。

3U 机架式服务器的驱动因素

在《风冷 500W CPU?Dell PowerEdge 17G AMD服务器预览》一文中,我提到过 2U 的 7725 双路机型参数中,写了风冷散热能支持到 500W 的 EPYC 9005 CPU。由于还没看到详细资料,暂时不确定是否有进风温度等方面限制?

这几年来,我也曾不只一次听到同行朋友说,如果把 2U 服务器加高到 3U,就不难面对 CPU 功耗不断提升的情况了。按最简单的理解,如果只是加高 CPU 散热器的高度(鳍片总面积成正比),还有机箱空间/风扇排的改变,效果应该是可以的。

3U 机箱还有另一点好处。记得我在多年前曾选型过一款机箱,当时看重 3U 机架式的原因就是能插全高 PCI/PCIe 板卡(考虑支持工作站的显卡),不需要像 2U 机箱那样转接为横插。下面这款服务器的特点也是如此:

image.png

上面照片,我们看到的是服务器前窗。数一数 PCIe I/O 金属挡片的物理位置,一共是 18 个——左边留出了一个存储盘位区域(这台配置是 4 个 E3.S NVMe SSD)。具体支持的扩展卡数量请往下看。

Image

这台服务器机型是 Lenovo SR675 V3,3U 机架式,最多支持 2 颗 AMD EPYC 9004/9005 系列处理器。我曾经写过,因为都是 SP5 插槽,所以改换 BIOS 就能用同样主板适配 2 代 CPU。

NVIDIA HGX H200 或 H100 4-GPU SXM 模组的支持,并不是我想谈的重点,因为如果采用冷板式液冷,2U 服务器就能支持这些。而我在《风冷、液冷 GPU服务器密度提升 - PowerEdge 17G整机架预览》中也提到,8-GPU SXM 模组可以适配在 6U 风冷和 4U 液冷机型中。

而 8 个双宽 600W GPU 的支持,又让我想起了 NVIDIA 的 H200 NVL;既然是标准 PCIe 卡,联想资料中也写了支持 AMD Instinct™ MI 系列加速器。我之前提到过 D 厂商对应的机型,是 4U 的 XE7740 和 XE7745。

PCIe Switch 与 GPU 直通 CPU 的区别

Image

支持 GPU 的 8 个 PCIe x16 插槽,分布在 2 块 PCIe 交换板上;最右边还有块“PCB 小板”,2 个单宽 PCIe 槽位看上去是通过 Retimer 芯片直通连接的。

SR675 V3 这机箱长度不短。为了照顾 PCIe 板卡的散热,把该区域放在了机箱的最前端。我们可以看到 2 颗散热片下面的应该是 PCIe Switch 芯片。

Image

SR675 V3 也像不少 GPU 服务器那样提供了 PCIe 直通 CPU 的选项,此时是最多 14 个 PCIe 插槽,其中 8 个双宽 GPU 槽位支持 x8 Lane 宽度。

Image

从表面上看,这款 3U 机箱只有 5 个系统风扇,但尺寸却是 80cm(2U 服务器一般是 60cm 风扇)。Nidec 这个风扇标称的 12V 电流可达 5.54A,不知配满 8 块 600W GPU 时具体转多快。

Image

图片点开后可放大查看

在上图中,我用红框圈出了 SR675 V3 可选的几种“正面 IO 配置”。除了 8 x 双宽 GPU 之外,还有 4 x 双宽,以及 SXM 系统几种选项。对应的技术文档我还没有细读,供大家参考。

Image

如图:我用红框标出的上面一看,是左侧 PCIe Switch 芯片的 2 个 x16 上行通道(连接到 EPYC CPU),那么 4 个 x16 PCIe 5.0 插槽就是对应的下行通道。因此 PCIe Switch 芯片应该不少于 96 Lane。

位于 PCIe 交换板下方的“长条小板”,右侧也是 2 个 PCIe x16 连接器,直通给左边的 2 个单宽插槽。也没看到像 GPU 插槽那样有供电加强,所以它们应该就是为网卡等而设计的。

PCIe Switch 的作用不只是信道扩展,它还可以作为 Root Port,让 GPU 之间的通信,以及 GPU 与网卡等之间的 I/O 可以不用经过 CPU 的 PCIe 控制器。当然在这里的情况应该有些不同:

1、 最新的 H200 NVL 支持 4 块卡间的 NVLink 互连方案,当然按道理国内买不到;

2、 SR675 V3 机型并没有用 PCIe Switch 为 8 块 GPU 之外的板卡提供更多插槽,毕竟 3U 机箱空间有限。

OCP Grand Teton AI 服务器:训练和推理的配置异同

具体到 AI 大模型应用的适配,某款机型更适合训练还是推理?下面我参考 OCP 的 Grand Teton 项目简单讨论下,当然不同企业玩的大模型参数量规模也不同,比如 Meta 的 Llama3 从 8B、70B 一直到 405B 都有。

关于 OCP 的 Grand Teton 项目,我在《Hot Chips 2024资料公开下载:聚焦 AI芯片&__散热》中讨论了一点。今天进一步引用 Spec 文档中的内容。

Image

整套 Grand Teton 是在 8U 机箱里面有 3 个 tray:2U 的 CPU tray、2U 的 Switch tray(PCIe 交换)以及 Accelerator tray。具体到加速器可以是 HGX 8-way H100,也可以换成 Meta 自己的 MTIA ASIC 推理卡。本文中暂时只讨论 NVIDIA GPU 部分。

Image

上面是 Grand Teton 用于训练服务器的配置。请大家留意下,在 Switch Tray 中,每个 Broadcom PEX89144 PCIe Switch 上还连接有 2 个 400G 低延时网卡——用于 AI 集群的 Scale-out 网络,以及 4 个 NVMe SSD——这些也算是为 GPU 服务的。

Image

推理服务器的配置,对 GPU 的显存需求比训练低许多。如果通过 NVLink Scale-up 组网的 8 块 GPU 能够容纳下 AI 大模型,就可以降低对 Scale-out 网络的要求。

而在推理服务器的配置中,Grand Teton 每个 GPU 对应的 1 块 400G 网卡不要了,整台服务器只保留 2 颗 CPU 上各自连接的 1 块 400G NIC。另外 NVMe SSD 减少了一半。

由此来看,在所谓的千卡、万卡 AI 集群中,3U GPU 服务器的定位应该主要是推理应用吧?

EDSFF SSD、EPYC CPU 散热器一瞥

Image

回来继续看 SR675 V3 服务器上的 SSD,4 个盘位里我把这块抽出来。

Image

三星的 PM1743 EDSFF E3.S 3.84T TLC NVMe SSD

Image

这台 SR675 V3 样机,好像并没有因为 3U 机箱而换成加高的 CPU 散热器?其实想想也正常,因为它的风道设计重点针对在前部的 GPU 部分。如果只是插一些低功耗的 PCIe 卡,从技术角度想加强 CPU 散热也没有什么难题吧。

Image

会场展示的一颗AMD EPYC 9005——满配 Zen 5 标准 CCD(Core Complex Die)布局,16 片 8 核的 CCD 组成 128“大”核心

支持 MI308X GPU 的服务器,来自谁家…

刚介绍了会场上不多见的 3U 服务器,再来看另一个有点特色的:

Image

上面照片是一台 6U 服务器,里面 8 个 GPU 从外表看可能是 NVIDIA SXM,会不会是其他的 OAM 规范模组呢?

Image

在旁边的介绍里,这款机型是浪潮 NF5698A7。具体支持什么 GPU 大家看到了吧。

2U 4 节点双路 500W CPU:风冷/液冷?

Image

上面这台 2U 服务器,中间支持 8 个 E3.S SSD,两边的风扇显然为散热优化设计过。我们来看看具体配置:

Image

浪潮这款 2U 4 节点机框的型号是 i24-A8,分为风冷和液冷两种机箱,里面对应 2 款不同散热方式的 NS5180-A8 1U 半宽双路服务器节点。

我一周前刚写过 Dell 的 M7725——是 1U 双节点双路 500W CPU,冷板式液冷。浪潮这个密度相仿,如果配 500W 的 CPU 估计同样需要液冷了。

扩展阅读:《企业存储技术》文章分类索引更新(微信公众号合集标签)

END

作者:唐僧 huangliang
原文:企业存储技术

推荐阅读

欢迎关注企业存储技术极术专栏,欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
5615
内容数
266
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息