什么是工作站的模块化设计?模块化又有什么好处呢?我认为主要是三点:1__、灵活性; 2__、易维护;2__、高密度(空间利用率高)。而另一方面,模块化会不会带来一定的成本增加呢?我觉得这要看具体机型的设计是否值得。_
目录
- 存储扩展依然豪华:10块SATA/SAS或8个NVMe热插拔
- 散热导流罩下“一吸一吹”的内存风扇
- 主板布局+模块化机箱\=易维护
- PCIe扩展槽与GPU、NVMe存储支持
- SAS/SATA/PCIe FlexBay存储扩展托架、模块电源
- 配电板:GPU功耗支持至少1500W?
- 电源开关LED故障诊断:为什么说高端机型用到多?
当2017年Dell发布基于Intel Skylake平台(即第一代Xeon Scalable CPU,后来加入第二代支持)的Precision 7920、7820和5820 Tower工作站时,可能没有多少人会想到中高端工作站平台,会在五年半之后才会再次更新。
所以这两个月的新品发布才更值得关注,以Dell工作站为例,3款新机型分别是Precision 5860 Tower、7960 Tower和7960 Rack。其中5860的机箱结构与半年前发布的AMD Threadripper平台的7865机型较为接近,CPU为Xeon W-2400系列;而7960 Rack是2U机架式机箱,硬件上与PowerEdge R760服务器同平台;本文介绍的重点,则是Dell 7960塔式工作站。
扩展阅读:《AMD 64 核搅局工作站市场:Dell Precision 7865 技术解析》
上面这张照片不是我拍的,因为我手头没有那么多高端的NVIDIA专业显卡——这一代的旗舰工作站机型,支持4块双宽300W功耗的GPU显卡,已经不算新鲜事。同样地,最多56核的Xeon W-3400系列CPU,各大品牌工作站也都会有对应的机型。那么,大家有什么差异吗?本文就是想讲讲Precision 7960 Tower的特点。
扩展阅读:《单路为王?Intel Xeon W-3400__、2400__工作站平台预览》
当我把Precision 7960主机从包装箱里拎出来,第一印象就是顶盖的凹陷区域不像以前那么规则了,而是流线型过渡的设计。
上面是7960工作站正面和背面的照片示意。我用红框标出的是PCIe扩展卡的I/O挡板位置,从技术潜力来讲,该机型应该最多可以支持2块三宽显卡+ 2块双宽显卡。这一点我在下文中还会在主板图上说明。
存储扩展依然豪华:10块SATA/SAS或8个NVMe热插拔
拆下右边的驱动器导风挡板,可以看出7960 Tower的存储盘位设计与上一代7920比较接近。当前这台的配置,最底下是2块3.5英寸SATA HDD硬盘;往上有一块热插拔的NVMe SSD(M.2加转接组件),左边的空位可以加第2块M.2——技术上也兼容2.5英寸U.2接口的企业级PCIe SSD。
具体到Dell模块化工作站对NVMe SSD热插拔的支持,我在《_Optane 900P SSD__评测(1)_:当工作站热插拔遇上Cache__软件》一文中早有讨论,没看过的朋友可以参考下。
上图是贴在7960 Tower工作站机箱盖板内侧的说明贴纸。就像前辈产品那样,Dell依然重视旗舰工作站机型的存储扩展性。前面板上的5.25英寸和超薄光驱位,可以替换成2个存储驱动器,再加上机箱后侧可选的4个盘位,总共最多支持10个3.5/2.5英寸SATA/SAS盘,或者8个NVMe SSD(PCIe x4),而且都支持不拆机箱盖直接取出维护(SATA/SAS盘在配RAID卡+对应背板之后也支持热插拔)。
主要升级点,是热插拔NVMe盘的支持从7920的4个增加到8个。有朋友可能会问,NVMe SSD是不是板载M.2插槽成本最低?应该是,比如在Dell工作站新品中7960以下的型号主板上都有M.2 NVMe盘位,扩展阅读:《以“小”见大:从Precision 3660看工作站技术发展趋势》。
至于Precision 7960,由于Xeon W-3400系列CPU支持112个PCIe lane以及充足的插槽,还可以用下面这种转接卡来支持更多的M.2 SSD。一转四的Ultra-Speed Drive Quad如果插2块,又可以支持8个M.2 NVMe盘。
8个热插拔的NVMe SSD盘位还有什么别的好处吗?我理解,如果客户需要更大的单盘容量,或者更高的写入寿命,7960 Tower在技术上同样可以支持8个U.2企业级SSD,PCIe Flex Bay从背板接口,到空间和散热上都预留够了。这方面的定制想象空间,一般塔式工作站达不到吧?
位于7960 Tower机箱后侧的可选驱动器安装架(支持4块盘)引用自Dell_技术文档《Precision 7960塔式工作站服务手册》
模块化的存储盘位,对应的还有分区域的散热风道设计。如上图BIOS界面,每两块盘的仓位后面都会带有一个风扇,并根据传感器的温度来各自调速,兼顾散热和静音——后者也是塔式工作站用户看重的。
上图为PCIe 4.0 x8一转二的Ultra-Speed Drive Duo SSD转接卡,我注意到随着NVMe盘性能的提高,其功耗有所增大。这款卡上增加了M.2的散热片,应该是为了避免SSD过热降速(同时风扇也不需要转太快)。
散热导流罩下 “一吸一吹” 的内存风扇
打开机箱左侧板之后,中间的大块黑色就是散热导流罩,在取下它之前,我们先看看右下角的一个“小玩意”。
根据我理解,这里应该是固定RAID卡BBU电池/电容模块的位置,有一个卡子可以把这个小盖板取下来。
取下导风罩之后,就如同本文第一张图了。我们先来看看主板这一侧的散热风道示意——机箱前面有4个进气风扇,后面2个专门用于CPU和内存热量排出。接下来,我就要研究下导风罩底下的2个风扇,又是如何的引流的呢?
Dell新一代7000系列工作站导流罩的一个改进,是固化集成了插到主板的风扇连接器(如上图右下角),不用像之前7920 Tower那样,还需要单独插一下CPU风扇的插头。
把7960 Tower的导风罩翻过来,依然是右侧对应机箱前面进风的方向,我看到先是一个80mm的风扇(品牌:Delta台达)对着内存(主板)“向下”吹,然后整体气流向后经过CPU散热器之后,再从另一侧的内存方向吸风“向上”吹。如果我解释的还不够直观,请看下面照片:
从这个角度看,2个内存风扇沿着机箱风道顺序,先向下吹、(经过CPU散热器)再向上吹的设计就比较清楚了吧:)
主板布局+模块化机箱=易维护
上图这个塑料支架主要有2个作用,一个是辅助较长的PCIe扩展卡金属把手固定;另外还能收纳/隐藏若干8pin GPU供电线缆接头。
当把机箱前端的风扇排(含4个风扇)也拆下之后,整块主板上的接线感觉比较清爽——这也是我面对7960 Tower测试机的感觉。基本上就是上图中标箭头的几个边角位置,拔了线之后就可以拆主板了。
PCIe扩展槽与GPU、NVMe存储支持
上面是主板的正面图。我用红框标出的2、30两个PCIe插槽,从空间上具备支持三槽位宽度GPU的潜力,而27和33两个PCIe插槽还能同时安装2块双槽位宽度GPU显卡。
23和24位置,是2个PCIe x8的连接器,可以引出向下绕到主板背面的机箱另一侧,用于连接4个热插拔NVMe SSD。
主板背面的1、2位置,也是2个PCIe x8连接器,用于支持另外4个热插拔NVMe SSD。3、4的位置,则是2x 4个SATA接口,在不加SAS RAID卡的情况下,7960 Tower与7920一样最多支持8块SATA盘。
SAS/SATA/PCIe FlexBay存储扩展托架、模块电源
上图红框标出的区域,是机箱后侧可选的4个存储驱动器扩展位——相当于把左边那两个双盘仓位“翻过来”加到这里。
正如上一代7920工作站,7960 Tower右侧盖板的2颗螺丝在一般维护工作中很少需要卸下。在这个区域,主要就是布局存储扩展仓位(最多10块盘),也包括5.25英寸&超薄光驱位、电源(同样是模块化,不用拆侧盖就能从后面抽出)及其专用的配电板。
上图是位于2块盘位后侧的背板+风扇模块,这里示例的版本正好是NVMe热插拔——连接一条PCIe x8信号电缆就好。根据客户的不同需求,7960 Tower总共5个这种双盘仓位,在这里可以选择SAS热插拔背板,或者纯SATA支持的配件。
配电板:GPU功耗支持至少1500W
上图是连接电源模块,以及各用电设备的配电板,当然还包括机箱这一侧几个存储风扇的供电,以及对应温度传感器插座。这一块我最关注的就是PCIe/GPU供电的支持情况。
4个红圈的位置,就是7960 Tower的PCIe/GPU供电线缆插座
还记得它的前辈机型7920 Tower设计支持3块300W的显卡(如:NVIDIA RTX A6000),那款的配电板上提供了4个8pin GPU供电插座——只用其中3个,每个经过转接线就能输出225W的辅助供电。上一代的这种“超前设计”,当我后来测试2块350W的GeForce 3090显卡,乃至实验2块450W的4090显卡时,才完全理解设计者预留的用意。
如今的7960 Tower,配电板上的4组PCIe/GPU供电插座改为12pin,其中+12V线缆从3条加倍到6条——因此每组都能不打折扣地转接出2条8pin供电线。我手头这台测试机配置的1400W电源;如果配上2200W电源模块,就可以接出全部8条8pin供电线——我觉得GPU总功率至少可以达到1500W(8x 150 + 主板插槽4x75)。
电源开关LED故障诊断:为什么说高端机型用到多?
如果您也像我这样经常处理硬件故障,就会意识到下表的价值。虽然Dell全线客户端产品都支持电源开关LED诊断代码,但由于像79xx这样的高端机型复杂度高,内存、风扇支持的数量比较多,所以系统诊断指示灯对debug判断的帮助就更大。
注:报错多数时候并不见得就是硬件损坏,比如某条内存接触不良;或者某个风扇插头掉了在BIOS自检中也会停下来报错的。
由于页面所限,上表只是截出了一部分,如需要完整的,请查看Dell每一款机型对应的服务手册,网站上都有的。
这次又写的比较晚了,希望本文对大家有帮助。其中有些超出官方规格范围的技术讨论,仅供读者朋友参考。
作者:企业存储技术
原文:企业存储技术
推荐阅读
欢迎关注企业存储技术极术专栏, 欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。