企业存储技术 · 2021年04月01日

1U双路风冷350W?点评方升服务器散热设计

作者:唐僧 huangliang
来源:企业存储技术

最近因为工作上的项目,我从周末到前天晚上算是连续加了点班。昨天下午,在搬砖的同时线上听了一段阿里云主办的《方升架构年度峰会》,想就服务器散热这块简单扯几句。在各位业内专家老师面前班门弄斧了,如有我写的不对之处,欢迎拍砖指正:)

*1U风冷2x 350W CPU*的取舍(代价)
**

image.png
上面这张ppt__来自阿里云服务器高级硬件架构师曹洪浩的演讲《方升架构技术介绍》。

不知大家是否还记得,我在《_下一代Xeon服务器:Ice Lake-SP通用云平台设计预览_》中曾经列出过一张Intel朋友的资料,里面写的1U Spreadcore传统布局双路服务器,典型风冷限制CPU TDP为230W(应该是针对35℃环境温度),对应的PCIe(2.5英寸NVMe)SSD数量10个,系统散热风量90 CFM,散热器也是T型的。如下图:

image.png

相比之下,阿里列出的通用1U和方升1U的系统最大流量(150 CFM)明显更高。提高风量的办法可以有2个,一个是加快风扇转速,这个4056风扇已经很高了不能无限增加;另一个就是降低流阻。

流阻怎么降低呢?下面图片,我拿一款目前支持比较高TDP CPU(280W AMDEPYC)的Dell PowerEdge R6525图片为例。在服务器前部进风口和风扇排之间,可能影响到CPU散热效率的几乎只有HDD/SSD驱动器,方升就是在这块下的文章(后面我在介绍英业达做的2U系统时,也是一样的原理)。

试想一下,如果互联网用户的某款1U机型,只需要2-4个2.5寸或者M.2SSD,然后把PCIe I/O卡挪到传统通用型服务器前端放盘的位置。前面板的开孔率和进风效率提高,这时流阻降低25%应该说是合理的。

根据我的理解,某款机型设计在功耗(发热)一定的情况下,风流量越大,进出风口的温差应该越小。为什么方升的进出风口温差15.5℃反而比通用1U提高了?这应该是因为CPU功耗支持更大吧,在机箱内进行的热交换相应增加了。

image.png

提到热交换面积,PowerEdgeR6525可以配置L型CPU散热片,也就是我上图中用红圈标出的。大家不难理解T型的总表面积可以做到更大,为什么R6525不用T型呢?

我用绿色箭头标了2个通过L型散热器臂的气流路径——通过内存之后就是电源,别忘了电源尾部还有自己的风扇。

而在2颗CPU之间的内存区域,其下风方向还有PCIe I/O板卡,比如支持个70W的Tesla T4什么的。如果用了T型CPU散热器,这部分的温度上升也是要考虑的哦。

image.png
上表引用自_《__Dell EMC PowerEdge R6525__技术规格_》文档,里面很细致的写了限制条件(仅截取部分,背后是大量测试验证和设计工作),我们重点参考下对280WCPU的支持。

当1U服务器支持4个3.5寸/8个2.5寸盘,与10个2.5英寸SAS/NVMe盘时搭配的4056系统风扇要求也不同——后者要最高的“金牌”风扇,可见流阻的影响。

这里还写了R6525 280W CPU支持的最高环境温度为30℃。我粗略按照阿里方升“系统散热能力10%+”来推算,在加上L型与T型CPU散热器的一点差距,感觉支持到320W左右的TDP正常,只是我没找到R6525的系统流量LFM值作为参考。

方升有可能在35℃进风温度下支持350W CPU长期运行吗?阿里的朋友似乎没讲到这一点,不过我还是觉得有点悬,如有知道的朋友可以在下面留言。

image.png

这里对比的环境温度为25℃。按照我以往的经验,通用型服务器只有高密度GPU节点、2U 4节点这些才会在有些条件下限制到不高于25℃的进风温度。当然如果数据中心条件可控(特别是自建),服务器啥的都按照25℃来设计也没啥不行的,只是空调的要求——PUE数字可能就不那么好看了。

至于散热能耗降低,我觉得还是因为流阻,DIMM也是同样的道理。其实对于通用1U服务器来说,内存能支持的温度还有一定空间。QSFP网卡模块的温度降低较多——因为从机箱后端移到了前端,只不过QSFP能容忍的温度更高(后面我会列出一张图),降到30多摄氏度的意义大吗?

ODM(英业达)分享:智能网卡,又一个服务器新热源

image.png

这个和后面几张ppt,来自英业达SDQC技术总监邱国书的分享《英业达Horsea与方升架构结合》。作为参与方升服务器项目的ODM之一,真正设计和制造者讲的往往干货更多些。上面这个机型修改的时间轴线,对从事设计、产品规划相关工作的朋友可能有参考价值。

image.png

90%的部件沿用现有模具,包括主板、8HDD背板等;由于管理网口也要改到机箱前端,所以新开了一个MGMT Board。
image.png
这里的通用2U/方升2U对比很直观吧。在把Front Storage部分改为Front I/O之后,进风的流阻同样降低了。不过我们试想一下,通用2U服务器如果经过一些调整,前面只插8块2.5寸盘的话,是不是流阻和散热情况也能同样改善?

image.png

这张图吸引我的一点是:SSD__固态盘用的不是传统U.2__,而是还不太常见的E3.S__。扩展阅读《_EDSFF 3英寸企业级SSD会成为下一代标准吗?_》

一开始我是这样理解的:与其强调把I/O板卡移到前端进风口处,不如说现在SSD单盘性能较高,在计算/存储分离架构下,只要不是大容量存储服务器,8块SSD对于互联网的计算节点多数情况够用了。至于thermal loading,最应该关注的不是CPU、GPU吗?

image.png

看了这张图,我才发现自己上面的观点不够全面。虽然对于OCP QSFP(网卡部分)的spec温度上限105℃,通用服务器还有不少裕量;但智能网卡(DPU)没这么乐观,我们以阿里神龙服务器的MOC卡为例,使用FPGA的话功耗接近75W或者更高都有可能。如果智能网卡温度已经距离125℃不太远,它需要像GPU那样散热“被照顾”就正常了。

image.png
最早这款神龙MOC__卡功耗看上去高一些,现在的应该早就从双宽改单宽卡了。

按照上图中列出的数字,方升2U机型在较低(50%)fan duty cycle的情况下,对QSFP和智能网卡的散热都比通用服务器有改善,但内存和GPU进风温度就不同了。谈到GPU支持,本文里面写的这2款1U/2U方升,又回到和通用服务器差不多同一起跑线,显然这不属于它们擅长的领域(方升还有别的对应机型)。

350W CPU何时出现?方升开源在哪里?

我们知道,AMD EPYC3和Intel IceLake-SP新一代Xeon的TDP还达不到350W,不过看大家这个研究节奏,下一代再堆点核心进去就差不多了?

依照以往的惯例(参见《_2019 OCP Global Summit会议资料下载 -Part 1_》),最后我再吐槽点技术以外的东西:

我记得这次会议提到了方升开源BMC软件,个人觉得与OCP的OpenBMC相比,可能还是后者参考价值更大一些吧。那么硬件方面的设计资料/规范呢?
image.png

上图截自opendatacenter开放数据中心委员会网站,COCI那些方升相关的文档仍然需要认证会员才能下载,什么时候能跟人家OCP学学?

表面上看方升的设计创新是由互联网公司主导的,实际上背后往往有着默默无闻的ODM/OEM工程师,乃至于上游(Intel等)的努力。互联网真正让人垂涎的是规模,当每年达到数万台或者更多的服务器采购量,可以做的事情就多一些了。

扩展阅读:《_企业存储技术》文章分类索引(微信公众号专辑)_》



推荐阅读

注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。 进一步交流技术可以加我的微信/QQ:490834312。
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage,也欢迎关注企业存储技术极术专栏,定期更新。
42.jpg
推荐阅读
关注数
5551
内容数
232
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息