企业存储技术 · 2023年02月20日

Dell PowerEdge R760服务器:风冷 vs. 液冷散热限制

接前文:《风冷双路350W:PowerEdge 16G服务器的Smart Flow机箱选项

目录

- 配件组合:风扇、CPU散热片

- 风冷350W CPU、12x 3.5”盘位限制

- 256GB DDR5内存条散热挑战

- NVMe SSD:功耗高的支持温度受限?

- GPU:为什么A40散热要求不同

- 液冷的差别

在看过技术文档《Dell PowerEdge R760 Installation and Service Manual 》之后,关于新一代16G服务器的散热设计,我有了更多可以跟大家分享的东西。

image.png

Front view of 16 x 2.5-inch drive system

关于16盘位“中间开窗”布局的意义,在本文中就不再重复赘述了。

image.png

Inside the system with processor liquid cooling module

两年前我写过一篇《冷板式液冷标准化:PowerEdge 15G服务器散热杂谈》,如今Dell 16G继续保持风冷或者DLC液冷2种出厂配置。但由于新的CPU TPU提高到350W(Intel)/ 400W(AMD),风冷散热面对挑战也做出了改进。

配件组合:风扇、CPU散热片

image.png

在PowerEdge R760 2U服务器的风扇排中,一共支持3种等级的60mm风扇:Standard标准(STD)、HPR Silver高性能银牌(HPR)、HPR Gold高性能金牌(VHP)。在前一篇中我就提到过,有些情况下必须用最强的VHP风扇。

image.png

CPU散热器同样分为3种:

- STD HSK应该是与1U服务器通用的普通散热片,支持CPU不超过165W,并且只支持2.5英寸驱动器和非GPU配置;

- 2U HPR HSK高性能散热片的高度更高,在3.5英寸盘和非GPU配置中支持125W-250W CPU,在2.5英寸盘和非GPU配置中可支持165W-350W CPU;

- L-type HSK:支持所有GPU/FPGA配置。由于2U全尺寸散热片会与PCIe双宽全长扩展卡干涉,并且还要避免气流经过CPU散热片后温度上升,所以在1U散热器基础上衍生出L型增大面积。

image.png

来自上一代1U AMD机型《Dell EMC PowerEdge R6525安装和服务手册》

在《1U双路风冷350W?点评方升服务器散热设计》一文中,我曾经引用过上图,L型散热片的样子可以参考下这个。

风冷350W CPU、12x 3.5”盘位限制

image.png

上图中最左边2列,是CPU的TDP(热设计功耗)/ cTDP,和T-Case表面最高中心点温度,往右的每一列则代表不同的前置+后置存储驱动器布局。

我只着重讲几点吧。首先,在12块3.5英寸HDD机械盘的配置中,HPR Gold(VHD)风扇最高转速只能跑到70%。这里主要应该是因为振动对硬盘性能和寿命的影响;另外我在《_Facebook如何将硬盘性能损失由90%降低到2%_ 》中还谈到过另一种情况——风扇引起的噪声也可能影响到硬盘。

那为什么2.5英寸硬盘不受这个影响呢?据我了解,在PowerEdge R760这款服务器上支持的2.5寸HDD,应该只有10K转速而不再有7.2K NL盘了。下图可以做一个参考:

image.png

上表我曾经在多年前撰文时引用过。右边的“桌面盘”,抗旋转振动指标在5-12 rads/sec/sec之间,实际上7200转NL近线企业级硬盘就是12的水平;而15K高转速企业级硬盘的机械组件品质要求更高,所以RV值达到21 rads/sec/sec,10K盘应该也接近15K的抗旋转振动能力。

扩展阅读《这些硬盘参数你都懂吗?(上)-从案例引发的讨论

这些硬盘参数你都懂吗?(下)-监控选型与系统设计

3.5寸“大盘”一方面影响到风扇最高转速,前面板空气流阻也相对较大,所以导致在这种存储配置下,250W以上功耗的CPU只能用液冷。

image.png

另外我还注意到,在350W CPU的Tcase最高温度还分为两种等级。实际上支持较低的57/66℃型号,就是上面这两款Intel第四代至强Scalable中,专门液冷用途的Xeon Platinum 8470Q和Xeon Gold 6458Q。风冷自然无法压住它们。

扩展阅读:《关于第四代Intel Xeon Scalable的一些技术思考

256GB DDR5内存散热挑战

image.png

在上面图表中,左边第一列是单条内存容量,第二列是2DPC(每通道满配2条)/ Power(我觉得这里写的应该是单条功耗,如果搞错了请大家在文末留言告诉我)。

由于256GB DDR5 RDIMM功耗达到12.7W,这样满配32条对散热的要求也不低。如果R760机箱风扇使用HPR银牌,虽然也能最高支持2颗350W CPU风冷,但只有在几种24x 2.5寸盘位配置下,才能支持256GB内存条运行于35℃环境温度下。

余下几种配置,都需要CPU采用DLC冷板式液冷,包括16x 2.5寸SAS盘位,看来“中间开窗”照顾CPU散热也不是完全没有副作用——多少影响了一点两侧的进风均衡?目前我只在256GB内存这一点上看出来。

NVMe SSD:功耗高的支持温度受限?

image.png

上面图表给大家参考。6款NVMe SSD中,我看到功耗最高的三星PM1733(22W),是唯一在24x 2.5英寸SAS配置的后置盘位中只能支持到30℃进风温度的。但功耗与环境温度又不总是成正比的,比如20W的Intel P5520在上表中排第二高,但反而在12x 3.5英寸的后置盘位中能支持35℃系统进风。看来各家SSD主控等芯片的耐热能力可能有差别。

image.png

Removing a 2 x 2.5-inch rear drive module cooling fan

上图中的风扇,是专门用于后置2x 2.5英寸存储盘位散热的。

GPU:为什么A40散热要求不同

image.png
如上表,PowerEdge R760能支持2块双宽最高350W的GPU(NVIDIA H100等),或者6块75W单宽的A2。有点例外的是,300W功耗的A40在有些配置下只能支持30℃环境温度,这是为什么呢?

根据我的理解,A40可以理解为工作站显卡A6000的变种,一方面把主动风扇改成被动散热器,同时还保留了3个DP显示输出——应该就是这里影响了风道的效率。

image.png

上图是R760服务器GPU配置对应的导风罩,与non-GPU的风罩不一样,所以给大家看下。

另外,前面我引用的部分表格是没有GPU的配置,在Dell这份文档里还有更全面的散热配置参考,限于本文讨论重点没有全部列出。下面是一张液冷配置的内存支持情况。

image.png

如果CPU换成DLC液冷,服务器机箱内的温度能明显降低,这样除了在256GB RDIMM和3.5寸盘的配置,余下范围只要STD标准风扇就能满足内存的散热需求了。

扩展阅读:《_350W+ CPU、700W+ GPU功耗:冷板和浸没式液冷哪个更有前途?_》

参考资料 https://dl.dell.com/content/manual32513608-dell-poweredge-r760-installation-and-service-manual.pdf?language=en-us&ps=true

企业存储技术》文章分类索引(微信公众号专辑

:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)

作者:企业存储技术
原文:企业存储技术

推荐阅读

欢迎关注企业存储技术极术专栏, 欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
5613
内容数
260
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息