E企研究院 · 7月31日

多核全能,引领风尚:基于AMD二代EPYC的戴尔易安信二路服务器首测

经过多年的蛰伏,AMD于2017年重回服务器市场,并带来了基于全新“Zen”架构的第一代EYPC服务器处理器(代号Naples,即那不勒斯)。在无限渴求性能增长的数据中心市场,更多内核、更多内存通道以及更多的PCIe通道数,无疑为提升性能打开了一扇新的大门。

如同十多年前AMD提出“x64”一样,EPYC迅速得到了市场的响应。作为全球最大的服务器制造商,也与AMD有着多年合作历史的Dell EMC就推出了三款基于EPYC处理器的服务器:PowerEdge R6415、R7415和R7425。

2019年,AMD推出基于“Zen 2”架构的第二代EPYC处理器(代号Rome,即罗马),全球首款采用7nm工艺的x86处理器,相比第一代EPYC,核心数量翻倍,最高可达64核心128线程,8通道3200Mhz的内存支持,以及128条PCIe4.0通道,性能近乎提升了一倍。
因为核数众多,EPYC处理器获得多家公有云服务提供商大量采用。Dell EMC亦迅速推出了采用第二代EPYC处理器的PowerEdge服务器,并在更新上一代三款产品的基础之上增加了两款新的服务器:即PowerEdgeR6525和PowerEdge C6525——都是双路,一款1U,一款2U4(双路节点)高密度服务器。

截屏2020-07-31 下午3.20.49.png

Dell EMC官网列出的PowerEdge品牌机架式服务器产品,上图橙色框中的为采用第一代EPYC处理器(即Naples)的服务器(两款单路,一款双路);绿色框中为采用第二代EPYC处理器(即Rome)的服务器(两款单路,两款双路,以及一款采用2U4设计的高密度服务器)

不难看出,在基于第二代EPYC的服务器中,双路产品的比例明显增加。这与两代EPYC处理器的特性有较大关系:第一代EPYC处理器采用完全对称的MCM(多芯片模块)设计,跨CPU访问的NUMA效应比较严重,同时双路配置提供的PCIe通道与单路配置一样多,加之AMD时隔多年刚重返服务器市场,业界更看好单路作为突破口。

第二代EPYC采用Chiplet(小芯片)设计,通过专用的I/O芯片(IOD)连接内存与CPU核芯,跨CPU访问的NUMA效应有较为明显的改善,这一点也是我们此次测试重点检验的内容,将在下一篇文章中详细分析。

之前我们曾专文详解AMD第二代EPYC处理器,详情请点击:

​AMD EPYC的模块化和NUMA之路

Tips:

Dell EMC服务器的命名规则:首个字母R代表形态,即机架服务器(即Rack),而C表示高密度服务器;第一位数字代表外形规格,如7为2U,(R)6为1U;第二位数字表示代数(如4为第十四代,即14G),最末尾数字则表示x86平台(0为英特尔,5代表AMD)。两代基于EPYC处理器的服务器比较特殊,数字有4位,用增加的第三位数字表示单双路平台(1为单路,2为双路)。

近似的外观设计中却藏有一丝不同?

Dell EMC PowerEdge R7525服务器,是Dell EMC推出的基于EPYC处理器的“旗舰”级双路服务器,最高支持128核心256线程(单颗EPYC处理器64核心128线程),最高可配置32根3200 MHz的DDR4内存条,最高160条PCIe4.0通道数,以及最高24个U.2(NVMe)SSD——需要96个PCIe通道才能充分发挥性能。主要面向需要较高计算能力、或者较多计算内核的应用场景,比如采用全闪配置的软件定义存储方案,VDI场景或者数据分析等应用场景(即利用EPYC处理器的多PCIe通道、高性能、多核心与大内存等特点)。

PowerEdge R7525沿用了PowerEdge家族中7系产品的外观设计,从前面板上看并没有太多不同:

截屏2020-07-31 下午3.21.53.png

上图为E企研究院用于测试的R7525服务器正面视图。图上安装了具有Dell EMC特色的挡板,挡板上有PowerEdge系列服务器标志性的触摸按钮(挡板右上三个符号),用以查看、设置iDRAC等信息;图下为拆开挡板之后,R7525设计了24个硬盘仓位,支持SAS/SATA以及U.2SSD

但如果从背部的设计来看,则稍有不同,例如与上一代的PowerEdge R7425相比:

截屏2020-07-31 下午3.21.45.png

最大的不同是电源模块:上一代的R7425(图上)的两个互为冗余电源位于服务器同一侧,但R7525(图下)的两个电源则分离设计,分别位于左右两侧,具体原因后面解释。R7525充分利用了EYPC处理器多PCIe通道的特点,提供了多达8个PCIe扩展槽位(如上图所示);最底部从左到右分别为2个1 GbE网卡,符合OCP 3.0规范的夹层卡(上图中最下方正中,配置了双端口25GbE网卡),以及右侧的iDRAC组件及对外接口
每一个电源(或曰PSU)都需要为机箱内的每一个组件供电(2N),相比于以往主流服务器设计中的互为冗余的两个电源位于同一侧,PowerEdge R7525中的两个互为冗余的电源位于服务器主板的左右两侧,这意味着服务器主板的重新设计。
服务器主板的重新设计意味着更高的成本投入,为何要重新设计?这会带来了哪些改变?是为了解决什么问题?我们希望通过下文来解释这些问题。

要狂飙,先修路

总的来说,重新设计主板是为了更高的性能。

虽然第二代EPYC采用了7nm制程,但是不仅核数比上代增长一倍(64 vs. 32),L3 Cache的容量更达到四倍(256MB vs. 64MB),这意味着在获得显著性能提升的同时,CPU的功耗也明显上涨。我们以一张图来说明:

截屏2020-07-31 下午3.22.59.png

上图为AMD的第一代EPYC处理器(右)与第二代EPYC处理器(左,红框内)的核心数量与最高TDP。在第一代EPYC处理器中,其最大TDP基本都在200W以内,只有一个型号的处理器(EPYC 7371)达到了200W。而在图左红框中的为第二代EPYC处理器,总计25款型号的处理器,其中12款达到或超过了200W(上图橙色线即为TDP),有5款处理器的TDP甚至达到了280W,且都支持双路配置(数据来自AMD官网,E企研究院整理)

主流的x86商用服务器通常使用其内部的风扇进行散热(俗称“风冷”),业内普遍观点认为,基于现有的双路服务器设计,风冷方案能支持TDP在240W左右的处理器,再高就难以保障。而这一代的x86处理器(不管是Intel第三代至强可扩展处理器,还是第二代EPYC处理器),都有多个型号的TDP达到甚至超过了240W,况且现代服务器内部的计算元件往往不止两个CPU而已……如何应对?

E企研究院实验室中的R7525服务器使用两颗EPYC 7302处理器,16核心32线程,基频3.0GHz,可睿频到3.3GHz,L3缓存128MB,TDP为155W,工作时可达180W,所以Dell为其选择了可以支持到180W的CPU散热片

截屏2020-07-31 下午3.23.10.png

E企研究院实验室中,R7525服务器上的CPU散热片,最高可支持CPU功率达到180W峰值时的散热需求

以Dell EMC PowerEdge R7525服务器为例:配置2个240W TDP的处理器时,还能支持3个300W或6个75W的专用加速器(如GPU、FPGA等),以及U.2 NVMe SSD、内存、新一代高速网卡(典型如25GbE、100GbE等);如果不安装那些高功耗的GPU、FPGA,在特定散热片的支持下,也可以支持双路顶配的EPYC处理器(TDP为280W)。散热问题如何解决呢?

服务器是个系统工程,第二代EPYC处理器也不仅仅是自身性能的提升,还包括更高频率的DDR4内存,以及全新的PCIe 4.0,这些都需要一款专门针对其设计的主板。所以,虽然为第一代EPYC处理器设计的主板也可以支持第二代EPYC处理器,但却不能充分发挥出它们的性能。

相比于用旧主板在“第一时间”支持第二代EPYC处理器的取巧做法,Dell EMC选择重新设计主板,并解决第二代EPYC处理器带来的一系列挑战。

从L到T的全新主板

这里的“L”或“T”不仅指外部形状,更重要的是主板内的线路设计。
截屏2020-07-31 下午3.24.03.png

上图左为R7525服务器主板,两个电源设计在左右两侧各一个,让主板形状形似一个“T”字;图右为14G服务器中的R740xd服务器内部,两个电源均设计在主板右侧,由此让主板形似一个倒置的“L”

从散热的角度,T形主板配合精心设计的风道,能够满足大部分高TDP的EPYC处理器。如果使用双路顶配的第二代EPYC处理器(280W TDP),只需要更换处理器散热器就能支持。

截屏2020-07-31 下午3.24.38.png

就是上图红框中的这个看似不起眼、但却经过精心设计的塑料组件,为R7525散热提供极大的帮助
截屏2020-07-31 下午3.24.48.png
用于R7525中的风扇组件,PowerEdge R7525 系统支持6个60mm风扇,分为标准 (STD)、高性能 (HPR) 或极高性能 (VHP) 风扇三种,由于我们测试的这台配置的CPU“只有”155~180W,使用标准风扇就可以了

T形主板的好处不只是为了散热。第二代EPYC处理器是x86阵营中最早支持PCIe 4.0技术的处理器,相比于PCIe 3.0,PCIe 4.0技术能够提供翻倍的带宽,比如主流的NVMe SSD多采用PCIe 3.0 x4通道,其理论带宽约4GB/s,而PCIe 4.0 x4的理论带宽则达到了近8GB/s。

但传统的L形主板在PCIe 4.0所需的高速信号传输上有一定困难。Dell EMC专家经过测试分析认为,L形主板会让内部的线路有较大的拐角(如90°直角),这有较大几率对线路上的信号造成干扰,带来更多的误码率。而T形主板在线路设计上,拐角可以更加的平滑,降低误码率,更好地支撑PCIe 4.0技术。

PCIe 4.0技术对R7525服务器最直接的好处在于,不仅能够支持更多的NVMe SSD,还能额外支持更多的PCIe扩展卡。

截屏2020-07-31 下午3.24.58.png
E企研究院实验室中R7525服务器中的PCIe连接示意图,SL1/3/5/6由CPU 2提供,SL2/4/7/8则由CPU 1提供;用PCIe线缆连接到前面板的驱动器插槽

E企研究院实验室中的R7525服务器可支持8个U.2接口的NVMe SSD,所以上图中只有SL1~SL4连接到服务器前端的中板上(如上图所示),用于连接其余16个驱动器槽位的中板则通过与其紧邻的PERC卡与PCIe线缆连接到SL8接口上。R7525主板原生设计了8个这样的SlimSAS连接器,通过8条x8的SlimSAS线缆连接到前端的中板上,可以支持16个U.2 NVMe SSD,并且是基于PCIe 4.0的NVMe SSD。如果要满配24个NVMe SSD,则可利用位于Riser扩展板上的PCIe插槽。

R7525支持4个Riser扩展板,每个Riser扩展板均支持两个PCIe x8插槽,加上主板原生设计的8个SlimSAS连接器,支持满配24个NVMe SSD,绰绰有余。同时还有余力支持25/100GbE网卡,更快地传输数据。

从E企研究院实验室的支持8个NVMe SSD,升级到支持更多数量的NVMe SSD,过程也非常简单,因为R7525中采用可拆卸的中板设计,可根据实际需求调整NVMe SSD与SATA/SAS SSD的配比。

E企研究院实验室中的这台PowerEdge R7525服务器配备两颗EPYC 7302处理器,尽管其核心数量只是顶配EPYC处理器的四分之一(16核心32线程),但却拥有2倍于标配的L3 Cache(每核芯8MB,L3 Cache总容量相当于32核芯的型号如EPYC 7452/7502/7542),而且基频高达3.0 GHz,并可睿频到3.3GHz,再辅以256GB(16GBx16,8通道)的3200 MHz内存,以及基于PCIe 4.0技术的NVMe SSD,将为企业应用场景提供强有力的支撑。

重新设计的主板带来的强劲散热能力,为使用更高性能的组件/技术(处理器、内存以及PCIe 4.0等)提供了条件。那么如此豪华的配置,在企业应用场景中的表现如何呢?且看下一篇文章分解。

2 阅读 72
推荐阅读
0 条评论
关注数
8
内容数
15
E企实验室由E企研究院专职产品技术分析师针对数据中心、云计算、AI和5G等领域最新技术和应用研究、验证、试用、分析,数据中心级新产品新技术的市场教育,国内唯一同时研究互联网和传统企业IT基础设施的机构和部门
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
Arm中国学堂公众号
关注Arm中国学堂
实时获取免费 Arm 教学资源信息
Arm中国招聘公众号
关注Arm中国招聘
实时获取 Arm 中国职位信息