企业存储技术 · 2020年07月05日

Xeon Scalable CPU跑到90℃了:为什么风扇转速还不提高?

这两天,有用户在双路Xeon Scalable塔式工作站上做压力测试,软件中看到CPU温度达到90℃左右,提出了2点疑问:

1、这个温度是否处于正常范围,还是偏高?

2、CPU/系统风扇应该没有全速运转,这是为什么?

image.png

如果看到CPU Package__的温度读数比单独的CPU__核心要高,我习惯以数字大的为准。

此次压测软件使用的是流行的AIDA64,由于手头暂时没有对应的Dell Precision 7920 Tower测试机,上图我用上一代的T7910(Xeon E5 v4处理器)代替截了一张,并没有跑压力,只是为了说明下查看传感器温度的位置。

AIDA 64支持AVX/AVX512烤机,可以说是一款不错的综合工具,但如果把标准再提高点,从压力程度(产生的功耗)和Sensor传感器获取全面来看,AIDA64都还不是最强的。这个话题有机会再跟大家聊:)

image.png

上图就是7920 Tower工作站的照片(用户测试同款),我曾在_《__双Xeon SP只用一个风扇?Percision 7920工作站散热设计解析_》中讨论过相关技术,包括在覆盖CPU散热器上方的导风罩,以及“前—中—后”的风扇布局等。

这里再补充一点:大家可以看到CPU散热器上贴纸指示的箭头代表气流风向,位于风道后方的CPU1散热器,它的鳍片密度比CPU0更高。

Tcase\_max和DTS(digital thermal sensor)的不同用法

还是回到压测90℃的问题上,由于用户使用的是150W TDP(热设计功耗)的CPU,我就以Intel网站上的规格参数,专门请教了同事中的热设计专家。如链接中的下图:

https://ark.intel.com/content...

image.png
这里以150W TDP的Xeon Scalable Gold 6242为例,Intel给出的Tcase最大温度为85℃。这个Integrated Heat Spreader(IHS)取值的位置,按照我早年做散热测试的经验,通常是在CPU上盖表面中心的温度。测试时可以给金属盖铣一个槽,然后粘一条2芯的测温线——即Heat Spreader。

看上去用户在测试软件中读出的90℃ CPU温度,已经超过了85℃的限制?那么究竟有没有过热,CPU会不会降频或者不稳定呢?专业的热设计工程师用下面这张图来回复我,请看:

image.png
图片点开后双击可缩放__(以下同)

上图来自《_Second Generation Intel Xeon Scalable Processors - Thermal / Mechanical Specifications and Design Guide_》文档,早在十多年前我做散热测试时就经常听Intel的朋友提到其简称“TMDG”。看来这次我又犯了偷懒的毛病:)

让我们先看XeonGold 6242这一行,在85℃的Tcase\_max后面,还有102℃的DTS(digitalthermal sensor)\_max指标。也就是说,如果从CPU表面拿测温线物理方式测试应该依据85℃的Tcase;而各种软件看到的CPU温度(比如从PECI界面读取)只要不超过102℃的DTS\_max就还在合理范围内。

image.png

照片拍摄自7820 Tower__工__作站BIOS(和T7920 BIOS是共用的)。Thermal Mode选项默认Auto,只有修改为Low的情况下才会为了强制保持静音而牺牲性能。

工作站产品往往采取了优化风扇转速静音散热的策略,但这并不代表在默认设置下会牺牲性能。如果CPU的DTS温度从90℃继续上升(比如环境温度提高),默认设置下的7920 Tower也会提高相关风扇的转速直至达到最大。
image.png
这里我拿GeForce RTX 2080 Ti显卡再来做个参照。涡轮风扇版OEM标准尺寸的型号,跑到250W TDP时不难上升到85℃,而此时显卡风扇只有67%的转速。可见NV认为此时温度还在正常范围,所以风扇保留了余地——也达到了降噪的效果。

如果用户希望CPU/内存或者PCI等区域在较低温度下就提高风扇转速,以加强散热效果,还可以修改Dell工作站的下面这个设置。

image.png

上图仍以7820 Tower为例,CPU/内存/HDD(存储驱动器)和PCIe被分成2个散热区域,而机箱空间更大的7920划分的区域更多。每个区域都有对应的一至多个风扇,我们可以通过右边的拉杆来调节风扇转速的偏移值。如果+100%即代表开机在任何情况下对应风扇都保持全速,会有点像服务器一样吵哦。

我认为+20-50%在一些场合是常见&合理的,不过如果安装了功率较大而又不带风扇的PCIe插卡,如有的第三方NVMe SSD或者ASIC/FPGA等,也可能需要把系统风扇调到更高。

Intel酷睿桌面CPU的不同——Tjuction又是啥?

在我的印象中,模糊地记得桌面和移动Core处理器在Intel网站上写的是100℃左右,这又是什么情况呢?

https://ark.intel.com/content...

image.png
 

上图截自最新发布的10代Core i7-10700页面。我之前有点犯了粗心的毛病:)这里的100℃可是Tjuction而不是Tcase,也就是处理器die内核的温度,可以理解为DTS值。

回想了一下十几年前,我测试散热的主要还是单核的Pentium4,后来也测过130W的双核Pentium D和Xeon等。那时由于CPU的集成度远不如现在(不含集显、MCH内存/PCIe控制器),Tjuction和Tcase之间的差距应该也小很多。而当年Intel资料中好像只用Tcase,早期的CPU内置感温二极管精度也不是太高。

工作站实测静音效果

下图引用自A Principled Technologies report: Hands-on testing. Real-world results.

image.png

这份测试报告比较了配置Intel Xeon W-2155的3款工作站,本文的目的不是竞争分析,所以先隐去另外2款的型号,只看Dell Precision 5820 Tower。

噪声的基准比值“1.0”取自3款工作站在空闲状态下的平均值——此时大家相差不大,都比较静音。而当CPU、磁盘或者显卡加压力时,有的机型噪声提高达一倍左右,而5820 Tower仍然保持了比较静音的效果。

Xeon W-2155的TDP是140W,但只是1颗CPU。如果换成7920 Tower工作站上2颗150W乃至205W的Xeon SP CPU,整体的散热压力显然更大,噪音多少会增加一些。

简单总结一句,就是:“风扇转的吵往往温度低;而温度高点并不表示有问题,默认静音也不代表风扇不能加速。”

扩展阅读《_CPU Pmax和GPU峰值功耗——你需要多大电源功率?_》

《_企业存储技术》文章分类索引(微信公众号专辑)_》

推荐阅读

本文转载自企业存储技术微信公众号,[原文链接点这里]。
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。 进一步交流技术可以加我的微信/QQ:490834312。
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage,也欢迎关注企业存储技术极术专栏,定期更新。
42.jpg
推荐阅读
关注数
5551
内容数
232
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息