企业存储技术 · 2020年06月17日

AMD EPYC二代服务器预览:Dell扩展2U 4节点HPC机型

本文内容非商业用途可无需授权转载,请务必注明作者及本微信公众号、微博 @唐僧\_huangliang,以便更好地与读者互动。

image.png
_Socket SP3 OLGA-4094封装的EPYC 7702P,PCIe 4.0支持也是AMD这一代产品的重点特性。

随着7nm工艺、最多64核心的AMD EPYC二代CPU发布,近日我看到Dell也宣布了多款新的PowerEdge服务器型号。

扩展阅读:《_AMD下一代EPYC服务器(Zen2):从NUMA到SMP的轮回?__》

《_AMD EPYC服务器OS兼容注意事项_》

《_多级NUMA:AMD EPYC互连速率、位宽与功耗的关系_》

上面有2篇文是我针已有AMD服务器写的,大家可以作为参考对比看看。本文里我的重点不是CPU本身,而是服务器系统。
image.png
Dell在此之前已有的3款AMD服务器型号:R6415、R7415和R7425,分别为1U单路、2U单路和2U双路。

本次发布的PowerEdge R6515、R7515和R7525就延续之前三款的定位,另外增加了1U双路的R6525,以及2U 4节点(也是双路)的C6525。

2U 4节点机箱容纳512 CPU核心

image.png
记得我在《_从PowerEdge MX看刀片服务器的进化_》中谈到过2U 4节点服务器机型,最初主要是针对高密度/性价比的HPC(高性能计算)市场,后来又赶上HCI超融合的春风。本次的PowerEdge C6525仍然主打HPC应用,尽管AMD还没有Intel Xeon SP的AVX-512,浮点性能有些吃亏,但这次7nm的核心效率提高不少,而且还有64 Core数量的明显优势,我觉得至少在部分类型的计算任务中能够领先。

记得我之前写过《_S9200WK:关于56核400W Xeon服务器系统的几点疑问_》,Intel Xeon Platinum9200也是针对HPC市场,估计是由于能耗比等方面的限制,目前感觉该产品线的动静不大。毕竟AMD的64核TDP只有200-225W。

Dell这次重点提到了天气模型、科研、数字化制造和生命科学应用,当然还有互联网(我认为含云服务商)——这也是当前AMD服务器CPU的主要客户群体。

image.png

扩展阅读:《_2U4节点Xeon SP服务器 (上):PowerEdge C6420更受重视_》

《_2U 4节点Xeon SP服务器设计:扩展性与散热的权衡_》

上面列出这2个链接,是因为C6525复用了之前Intel CPU 2U 4节点服务器的机箱。除了CPU和PCIe方面的差异之外,这次的Dell的AMD机型还加入了(每节点)2个单插槽宽度GPU的支持。要知道由于2U 4节点的功率密度大,散热方面是比较有挑战的,所以之前的C6420就引入了风冷和液冷两种选项。

image.png

在HPC集群应用领域,液冷特别是成熟的冷板式液冷接受程度要好不少,比如我国曾经排在Top500榜首的神威太湖之光。

注:本文提到的新机型,目前资料还不太全,包括具体供货时间在内请以官方声明为准。

不写限制的不等于没有:背后大量测试工作

image.png
_上图引用自《Dell EMC PowerEdge R6515 Installation and Service Manual》

如果不是产品规划设计、测试人员,估计较少有人会去主动关注服务器的一些使用限制,比如互斥配置。下面我给大家简单举个例子聊聊:

image.png

如果某款服务器的资料中没写这些类似的,不代表实际上就没有限制,也可能是测试不够充足…

上图引用自《_Dell EMC PowerEdge R6515 Technical Specifications_》,其中提到了一些当前的散热限制。比如有些PCIe扩展卡只能支持到35℃的环境温度;前面板配满驱动器(对进风有一定影响)情况下有的网卡支持槽位受限;单条128GB LRDIMM(上面颗粒多,也是发热大户)需要配HPR高速风扇,并且会影响到Tesla T4 GPU的支持…

首先,不是每家知名的服务器厂商都会在规格文档/服务手册中写这么细,应该说这也是大厂负责任的一种体现。而在背后,其实涉及到大量的测试工作——散热还只是服务器研发的一部分。我看到有不少用户都去横向对比不同品牌同配置服务器的价格,而真正重视产品品质的可能还不够多。要知道每一款好的产品,都离不开大量的研发投入。

如果是大型互联网用户选择ODM/白牌服务器,许多兼容性、散热测试等都要自己投入人员来搞。站在我这个曾经的服务器测试工程师角度来看,特别是对于中小客户有些钱真不应该省啊。

扩展性:SSD和GPU支持探讨

image.png

_上图截自《Dell EMC PowerEdge R7515 Technical Guide》

在Dell一些机型的文档中,还列出了当前支持的NVMe SSD(后续可能会有SSD型号加入)。这里我看到3家主要的供应商是Intel、三星和东芝,其中以2.5寸U.2尺寸为主,也有HHHL(半高半长)PCIe扩展卡。比较受欢迎的Intel认证过型号最多,除了P4510和P4610之外,还有使用3D XPoint Memory的Optane P4800X。

扩展阅读:《_SPDK实战、QoS延时验证:Intel Optane P4800X评测(5)_》

PCIe lane信道支持是AMD EPYC的一个优势,这可能影响到多个GPU或者NVMe SSD连接时的带宽。由于还不确定PowerEdgeR7525的具体规格,我先以现有的R7425为例,看看它的GPU支持情况:

image.png
_使用GPU优化的TensorFlow-TensorRT5.0进行CNN推理INT8计算

上图示意这台服务器安装了6个NVIDIA Tesla T4 GPU(都跑在PCIe 3.0 x16),如果是Intel Xeon SP CPU机型,几乎不可能把每CPU控制的48 PCIe lane(双CPU就是96)全给x16显卡用。而AMD则不同,单/双路服务器都能提供128 PCIe lane,具体在设计上侧重存储还是GPU就看情况了。

推荐阅读

本文转载自企业存储技术微信公众号,[原文链接点这里]。
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。 进一步交流技术可以加我的微信/QQ:490834312。
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage,也欢迎关注企业存储技术极术专栏,定期更新。
42.jpg
推荐阅读
关注数
5613
内容数
260
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息