作者:唐僧 huangliang
来源:企业存储技术
这两天开始看到Dell EMC PowerEdge 15G服务器的技术规格、安装和服务手册,可以跟大家谈一些细节了。
今天先接着《_1U双路风冷350W?点评方升服务器散热设计_》的话题,继续聊聊风冷/液冷散热这块。
上图就是液冷配置的PowerEdge R750 2U双路3rd Xeon Scalable服务器,本文就以该机型为例进行讨论。
安装冷板式液冷模块示意图
注意:上图中的导管都是带漏液检测的,其实早在至少5年前Dell就开始重视液冷导管的漏液检测了。
风冷散热支持270W CPU的限制
我们先来看一下风冷散热器(CPU散热片)的情况:
如文档所示,1U高度的标准散热片支持不高于165W CPU的散热;2U高度的高性能散热片支持165W以上CPU。由于有些情况下GPU全长卡与高尺寸散热片干涉的问题,同时为了更好地保证各自风道,对于具有GPU的所有TDP(CPU),这里均使用T型散热片(_图片可参考我在__前文__中列出的AMD__服务器机型PowerEdge R6525_)。
风冷散热的PowerEdge R750,可以支持在35℃进风温度下配置270W CPU,当然不可能完全没有限制。比如在12个3.5英寸驱动器,特别是再加上背面的2.5寸盘,环境温度就可能要降低到30℃。
上面图表只是第一部分——“_带有__≤ 64 GBRDIMM__(非 GPU__)的散热限制值_”,接下来还有如下几个表格,具体的大家可以看文档,就不在此逐一列出了:
-带有128 GB LRDIMM__(非 GPU__)的散热限制值表
-带有256 GB LRDIMM__(非 GPU__)的散热限制值表
-带有BPS + _≤ 128 GBDIMM__(非 GPU__)的散热限制值表_
-带有BPS + 256 GB LRDIMM__(非 GPU__)的散热限制值表
-带有__≤ 128 GBDIMM (GPU) _的散热限制_
-通过BPS + _≤ 128 GBDIMM (GPU)_ 进行散热限制
注:BPS就是指Intel Optane Persistent Memory(傲腾持久内存)
在配置270W CPU的同时,风冷的PowerEdge R750可以支持2个NVIDIA A100或者6个T4 GPU卡,此时前面板也不能是12个3.5英寸驱动器(进风量不满足)。另外,单条DRAM内存容量不能超过128GB。如果再加上BPS(Optane DIMM),限制则会更多一点。
由于服务器背面的驱动器进风温度较高,因此部分功耗较高的NVMe SSD在CPU风冷散热情况下不能放在这个位置(_液冷则无此限制,见下图_)。Dell应该是把已经测试过的情况都注明了。
还记得我之前写过“_OCP QSFP__(网卡部分)的spec__温度上限105__℃_”,有位同行朋友指出有些SFP模块支持的温度没有这么高。如上图,受影响的还有网卡的活动光纤线缆(AOC)。
液冷(CPU冷板散热)优势:还是密度和PUE?
如上表,当把PowerEdge R750服务器的CPU改成冷板式液冷之后,系统的散热限制表都简略了许多。
首先,270W或者较低功耗的CPU已经没有影响了,这里可以顺便展望下一代服务器的350W CPU。
此外,由于CPU的热量通过金属管内的液体(水)带走,余下GPU等配件的散热压力和限制也放松了——比如GPU + BPS + 大容量LRDIMM这样在全风冷下不支持的配置。
如上图,ASHRAE A3和A4分别对应40℃和45℃的环境(进风)温度。我们看到当风冷散热情况下,PowerEdge R750在40℃时支持的CPU TDP降到165W;45℃时进一步降低到120W。
而在(冷板式)液冷配置时完全没有这点限制了,就是说即使在45℃高温环境下,2颗270W CPU也能照样用。
关于液冷,除了服务器散热设计之外还要考虑数据中心配套设施,我曾在《PUE低至1.02x:风冷&液冷数据中心里的散热知识》中粗浅写过一点。包括CDU啥的,这些我就不专业了。总之,今天计算密度和功耗的提升,给液冷带来了更好的发展机会。
就先分享到这里吧,我引用的参考文档可以从Dell官网查看/下载,希望对大家有帮助:)
推荐阅读
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。 进一步交流技术可以加我的微信/QQ:490834312。
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage,也欢迎关注企业存储技术极术专栏,定期更新。