数字化推动算力基础设施的,算力作为各个行业信息系统运行的载体和引擎,受到了前所未有的重视。就在前不久,戴尔科技集团发布了新一代 Dell PowerEdge 服务器,覆盖主流型、GPU优化型、边缘优化型等8大细分品类,从而满足不同业务场景对服务器的需求。
戴尔新一代 Dell PowerEdge 服务器发布后,益企研究院重点关注其在性能、架构设计、节能设计以及安全等方面的诸多创新,并联合战略合作伙伴中国计量科学研究院针对Dell PowerEdge R760在复杂环境下的可靠性进行了验证。
参测系统信息
操作系统
Windows Server 2022 (updated Oct 2022)
CentOS Stream release 8(5.18.14-1.el7.elrepo.x86_64)
Dell PowerEdge R760
CPU:第四代英特尔®至强®可扩展处理器 Platinum 8480+
内存:DDR5 REG ECC 4800 32GB×16
**
配置均衡顶级双路至强8480+首秀**
数据量的爆发式增长带来了算力需求的急剧增加,这让数据中心对处理器的性能也提出了更高的要求。Dell PowerEdge R760是第四代英特尔®至强®可扩展处理器的2U机架服务器,在新一代PowerEdge服务器中的定位为高性能通用型,在性能、可扩展性等方面较为均衡。
Dell PowerEdge R760提供多种配置方式满足多样化的用户需求
Dell PowerEdge R760提供了两路处理器插槽,以及32条内存槽,属于满配。处理器和内存区域的布局也因此显得极其紧凑。
(图注:双路处理器,32条内存槽)
为了验证R760的实力,我们会专门为其搭配顶级的双路处理器,也就是第四代英特尔®至强®可扩展处理器中白金系列的8480+。8480+拥有56个内核,基础频率2.0GHz,全核睿频3.0GHz,最高3.8GHz,拥有105MB L3 Cache,功耗350W。事实证明,R760的默认散热配置可以完全满足这一对顶级处理器的散热要求。
第四代英特尔®至强®可扩展处理器(代号“Sapphire Rapids”)的一项重大特性是全面引入了PCIe 5.0的支持,每插槽可以提供80通道的PCIe 5.0,双路平台则可以达到160个通道,这明显提升了计算卡、高速网卡、NVMe SSD等设备的支持能力。
(图注:8个前置NVMe盘位)
着眼客户应用场景,戴尔在服务器架构设计进行了创新。Dell PowerEdge R760为后窗提供了4组PCIe Riser用于扩展标准PCIe卡。其中,两侧的Riser(编号分别为1、4)为PCIe 5.0接口,中间的两组Riser(上下叠放)为PCIe 4.0接口。
(图注:风扇墙、导风罩及Riser布局)
从布局上看,戴尔建议将强调高性能输出的GPU卡等设备置于机箱两侧,既分别接近电源(减少线损),散热条件也比较宽裕;而对带宽要求不那么高的设备(如主流网卡、推理卡、视频加速、存储控制器等)使用主流的PCIe 4.0接口,合理控制成本,安装密度也可以较大。
(图注:后窗布局)
Dell PowerEdge R760的导风罩设计也匹配了这种思路,中部的气流并非全部直通后窗,而是分流一部分给两侧。从导风罩的后向视角可以看到,中部上层的风道入口是故意收窄的,把进风量留给了左右两侧的PCIe 5.0 Riser部分。
(图注:导风罩风道剖面)
Dell PowerEdge R760右侧电源与Riser2之间预留了出入液管道布放通道。换句话说就是:戴尔已经为R760做好了部署冷板式液冷的准备,可以充分释放新一代处理器、GPU等的性能。传统服务器如果想改造为冷板式液冷,通常需要牺牲至少一个PCIe扩展槽的的空间走管路,而Dell PowerEdge R760不再面临这种困扰。
(图注:预留的液冷管道通道)
Chiplet亮相:内存性能有惊喜
与愈发昂贵的制造工艺相比,内存墙的问题可能更让人头疼——处理器内核数量的增长明显快于内存带宽的增长。所幸英特尔®至强®可扩展处理器用上了DDR5内存,换下了已是“三朝元老”的DDR4。另外,这一代平台全面采用了Chiplet设计,其片上互联的带宽、延迟应该是在内存测试中反映的最为明显。
因此,我们格外重视在新一代平台上内存的表现,并在不同环境下进行了多次测试。
首先,在Windows Server 2022下,通过AIDA64 Cache & Memory Benchmark,我们可以看到,Dell PowerEdge R760搭配的8480+在16通道DDR5 4800的支持下,内存带宽可以达到542.64GB/s,超过理论值的90%(16通道DDR5 4800的理论值是:4800×64×16/8=563200MiB/s=600GiB/s),可以满足内存密集型用户的需求。
作为参考,我们用实验室中的第三代英特尔®至强®可扩展处理器跑了同样的测试。双路平台,16通道DDR4 2933的内存带宽为307.66 GB/s,约为理论值的84%。另外,我们还留意到:8480+的内存带宽已经接近上一代处理器的L3 Cache带宽了。为了匹配内存带宽的长足进步,英特尔®至强®可扩展处理器的L3 Cache不但容量爆增,带宽也增长到了上一代处理器的约2.5倍。
在延迟方面,8480+的L1、L2 Cache延迟明显优于第三代英特尔®至强®可扩展处理器,这些主要来源于微架构的改进。譬如这一代的Golden Cove架构内核将每个周期的可能负载数量从上一代的2个增加到3个;L1D 填充缓冲区从 12 个增加到 16 个;L1 DTLB已经从64个条目增加到96个条目等。
8480+的L3 Cache的延迟则增加到了40ns左右。这符合预期,我们认为是Sapphire Rapids采用Chiplet设计导致——L3 Cache需要跨Tile访问引入了额外的延迟。至于内存,内存控制器也需要跨Tile组织,且DDR5频率提升也确实相对高频DDR4增加了延迟,内存延迟测试的结果与上代相比仅略有增加,优于我们测试前的预期。
我们也在CentOS下用MLC、Stream进行了测试。除了内存带宽和延迟的测试,我们还特意给Dell PowerEdge R760增加了逐核压力递增测试。从测试结果看来,搭载第四代英特尔®至强®可扩展处理器的Dell PowerEdge R760在通过Chiplet技术大幅提升核数的同时,不但保持了低延迟的相对优势,效率还有所提升。
在判读数据前需要指出的是,目前我们使用的MLC及脚本在特定的几个内核出现数据异常,鉴于两代Xeon处理器都会在同样的内核数(如25~28)均输出为0,可以排除硬件的架构问题,请忽略下图中的两处各4内核的异常点。
从图中我们可以看到:随着物理内核负载逐步增加,PowerEdge R760搭载8480+的内存带宽开始近乎于线性的增加。当内核负载增加到56个(恰好是单路处理器的内核数量)时,内存带宽已经达到500GB/s左右,相当于峰值的92%。然后,在64~70核时,内存带宽便达到顶点。以往的双路平台并不会这么快让内存带宽达峰,譬如参考的第三代英特尔®至强®可扩展处理器的内存带宽会分两阶段递增,在调用的内核少于一个插槽的数量时,另一插槽的内存带宽没有带来什么助益。
我们这次基于第四代英特尔®至强®可扩展处理器的 Dell PowerEdge R760内存带宽比以往产品的测试更早到达峰值,除了处理器内核与操作系统的调度有关,也与双路处理器之间的互联带宽的提升关系很大。Sapphire Rapids的XCC内核版本提供了4组x24 UPI2.0@16GT/s互联,而Ice Lake为3组11.2GT/s——两代平台间双路处理器互联带宽近乎翻倍的巨大提升可能是许多人未曾留意的。简而言之,在这一组测试中,R760展现出了更高的处理器互联带宽带来的价值,能够更充分地发挥新一代内存的带宽优势。
通过实测我们也可以得知,DDR5、PCIe 5.0等这些技术将提升Dell PowerEdge R760的综合能力,为内存密集型和IO密集型场景提供更高价值,具有理想的 CPU、I/O 和存储性能选项,可实现横向扩展,能够处理要求苛刻的工作负载和应用程序,例如数据仓库、电子商务、数据库等业务场景。
AI加速体验 智能计算新高度
第四代英特尔®至强®可扩展处理器采用系统级设计方法,在CPU芯片架构中内置专用的工作负载加速器,以提升性能和效率。为此,益企研究院在Dell PowerEdge R760这台服务器上测试了新的加速器技术,考察到底能带来哪些性能提升。
此前益企研究院曾专门针对AMX加速器进行解析。AMX计算单元支持8bit的整形数据(int8)和16bit的浮点数据(bf16),可以对不同的工作负载进行有效的优化。例如,在对AI模型进行训练的时候,为了保证模型的数据精度,往往需要bf16以上的数据精度进行运算。而在日常生产环境中,推理用的频次要远远高于训练的次数,而在AI模型的推理过程中,由于运算量相对较小,就可以采用int8的数据精度来提高效率。
通过考察TensorFlow ResNet50推理,可以展现第四代英特尔®至强®可扩展处理器的真正实力。在没有启用AMX之前,8480+的推理性能相对上一代处理器的提升主要得益于内核规模的增加。而一旦有了AMX加持,吞吐量的提升幅度就会比物理内核要大得多:在同是使用8480+的情况下,指定精度bf16的输出能力接近AVX-512(fp32)的4倍,int8更是接近8倍。有此“软硬兼施”,才能称得上火力全开。
由于支持int8和bf16两种计算精度,这也就意味搭载第四代英特尔®至强®可扩展处理器的Dell PowerEdge R760将广泛的AI工作负载的推理和训练性能提升到了新的高度。AMX加速器在OCR场景、以及生成式模型、大语言模型中都可以应用。
环境测试:无惧干扰 皮实可靠
对于用户来说,除了需要持续加速的性能还需要优先考虑环境影响,其一是环境对服务器的影响,另一方面是服务器对环境的影响。其中,复杂多变的供电等环境对服务器的工作状态和寿命构成了严峻的挑战。
为此益企研究院联合权威的计量科学研究中心和国家级法定计量技术机构,中国计量科学研究院对Dell PowerEdge R760进行的严格的测试认证。在这次测试认证中,Dell PowerEdge R760服务器顺利通过了中国计量科学研究院国家级实验室多项标准化测试,在诸多测试项目中表现优异,并在5个大项中获得认证证书,包括:服务器电快速瞬变脉冲群抗扰度认证、工频磁场抗扰度认证、静电放电认证、服务器连续射频骚扰抗扰度认证和浪涌(冲击)抗扰度认证。
Dell PowerEdge R760荣获环境测试5个大项的权威认证证书
这些认证也印证了新一代 Dell PowerEdge 服务器在电磁兼容、可靠性等方面优异的品质。
结语
结合益企研究院的性能测试,我们发现,戴尔的新一代PowerEdge服务器出色的性能和可扩展性、优秀的AI加速,可靠性,可以帮助企业在不断激烈的竞争中满足多种应用场景的需求,让用户在部署数据库、AI和其他现代工作负载时能够游刃有余,同时,戴尔致力于推动绿色数据中心,发展可持续性基础架构,通过高效节能、服务器优化等技术创新,为客户真正创造价值。