企业存储技术 · 2020年06月19日

后IB时代的GPU服务器:48V和液冷哪个先行?

本文内容非商业用途可无需授权转载,请务必注明作者及本微信公众号、微博 @唐僧\_huangliang,以便更好地与读者互动。

NVIDIA高价收购Mellanox已经是前两天的新闻,我不太会蹭热点:)相信InfiniBand技术还会继续发扬光大,那就姑且将未来称之为“后IB时代”——这对于GPU设计特别是高密度GPU服务器肯定会带来影响,但似乎和48V供电、液冷散热之间的关系不大?

其实我也是同样的看法,只是在这个时间点恰好一同讨论下2个技术方向。

image.png

符合NVIDIA DGX-1 WithTesla V100系统架构的2U 8x GPU服务器,这张照片我在以前的《_PCIExpress 4.0规范全文下载_》中曾经列出过。

目前的高密度GPU服务器能做到2U放进8个300W功耗模块,那么将来呢?不久前,我看到一份来自Open Compute Project(Facebook发起)的文档《_OCP Accelerator ModuleDesign Spec Review_》,里面就提到相关内容。

48V支持700W GPU供电,440W以上要液冷解决

image.png

据了解,Intel即将更新的Xeon Scalable最高TDP应该还保持在205W,但再下一代的“胶水48核”估计会有提高——服务器厂商的一些产品已经做好了预留设计(比如我之前写过的Dell PowerEdge MX7000)。

至于早已达到250-300W功耗的GPU/显卡,预计还会向更高标准迈进。而在12V直流供电下350W以上有难度了,其实PCIe spec就到300W。如上图,目前提出的是用48V来支撑最高700W TDP的加速卡(也可以是GPU以外的ASIC)。

这里同时还指出,风冷散热最高支持440W,估计这时对散热器和风速等要求已经比较苛刻了。那么700W的目标只能靠液冷解决。

注:大家不妨注意下支持300W GPU多卡的服务器,许多都有进风温度30℃的限制。标准PC服务器通常不低于35℃环境温度支持,可见风冷之瓶颈。

 
image.png
提高GPU供电电压原理上并不复杂。比如在P12V下,用GPU的27个pin供应27A电流,按照电压下限11V计算就是324W。这时每个针脚要承担1A的电流。

而换用P48V之后,只用16个pin承担16A电流(每个针脚仍然是1A),但按照电压下限44V计算就已经有704W功率了。无非就是减少电阻损耗,同时保证安全(UL安规)。

扩展阅读:《_460W电源能否带动GeForceRTX 2080 Ti显卡?_》

NVLINK从6条增加到7条的意义

image.png

接着看下一个问题。比如像今天SXM规格的GPU模块,与主板连接的针脚除了左下方的供电之外,还有连接主机(CPU)的Host X16,也就是PCIe;另有6个SerDes X16可以给NVLINK用,NVIDIA Tesla V100正好支持6条。右上角还有个SerDes R X20,这个又可以来干啥呢?

image.png

我们先来看一下当前DGX-1的架构,8个V100 GPU还不能做到点对点连接,正好就差1条NVLINK哈。

image.png

上图左边就是DGX-1的NVLINK互连形式,而如果下一代GPU提供不少于7个NVLINK,就可以做到右边每模块全连接——也就都是1跳的拓扑,效率更高。

最后一点就和收购Mellanox相关了:未来NVIDIA GPU与IB卡之间还要走PCIe连接吗?

个人猜测InfiniBand HCA会不会也将提供NVLINK版本呢?毕竟从NVLINK出现的第一天起,就能看出NV对PCIe的不满了。

image.pngimage.png
在DGX-2中使用的NVSWITCH芯片(注:其实DGX-2中已经引入了450W GPU)

在16个Tesla V100的DGX-2系统中,NVIDIA为了扩大单机规模,不得不增加了12颗NVSWITCH用于互连。预计将来的大规模GPU集群,还是应该会使用Mellanox的技术。

而今天PCIe 3.0 x16(接近16GB/s带宽)应付1个100Gb/s网络接口刚好够,而InfiniBand已经发展到200Gb/s。记得我在《_从Power9互连技术看Intel与IBM的生存之道_》中曾介绍过 “每个x8 lane NVLink/OpenCAPI的带宽为25GB/s”,V100上面6个50GB/s NVLINK应该是16 lane。另外,Intel似乎还要让大家再等一年PCIe 4.0。

image.png

这个架构图,就是我在2016年《_IB反攻CPU:ARM SoC能否逆袭NVMe闪存阵列?_》中介绍过的Mellanox BlueField。本次NVIDIA收购Mellanox,就看到国内外同行朋友们提到这个Smart NIC。如果想让这样的芯片改用NVLINK似乎比普通InfiniBand HCA麻烦点,因为当前里面的PCIe Switch还要连接ARM CPU核。要是换用CCIX/Gen-Z呢?这方面我还不太熟,就不再班门弄斧了。

拉上ARM,应该就能摆脱对x86 CPU的依赖更多一点,NV的这盘棋已经筹划好久了。

就先到这里吧,晚上写点粗浅的认识。不知前面我猜的是否准确,哪位朋友如有高见欢迎在下面指导:)

推荐阅读

本文转载自企业存储技术微信公众号,[原文链接点这里]。
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。 进一步交流技术可以加我的微信/QQ:490834312。
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage,也欢迎关注企业存储技术极术专栏,定期更新。
42.jpg
推荐阅读
关注数
5613
内容数
260
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息