137

企业存储技术 · 2023年07月05日

Xeon w9-3495X 56核工作站测试(1):BenchMark解读与性能优化参考

关于Intel最新一代高端工作站CPU和平台,我已经在《单路为王 IntelXeon W-3400 、2400工作站平台预览》和《Dell Precision 7960 Tower 工作站:模块化的传承与提升》两篇中有过介绍。

最近这几年,我写过显卡、SSD存储方面的一些评测,但确实好久没有全面系统地做过CPU性能测试。我在日常工作中也会遇到一些性能分析的任务,但主要是帮助客户把工作站等系统在实际应用中发挥出正常水平,而不只是为了跑分。比如《神油补丁测试:老版SOLIDWORKS + RTX A/T 系列显卡性能问题解决》,就是出于解决问题而搞出来的。

本文主要目的

  • 了解最新一代Xeon W-3400(4代)性能水平,对比之前的 2 代Xeon Scalable x2xx平台双CPU工作站,在各种计算应用中性能提升如何?
  • 双CPU比单CPU能快多少?观察在不同应用中的性能差距;
  • 结合各行业领域特点,分析多核CPU性能扩展瓶颈——在一些应用中使用多进程+多线程的意义。

image.png

位于Precision 7960 Tower工作站上的LGA-4677 CPU插座,我测试的Intel Xeon w9-3495X就是安装在这上面。

image.png

作为Intel Xeon w-3400系列中的顶级型号,w9-3495X处理器拥有56个物理核心,112个框框(逻辑线程)。

image.png

以上是我测试使用的Dell Precision 7960 Tower工作站,运行本文的基准测试部分时,只安装了一块 NVIDIA RTX A4000 专业显卡。后续还想给大家分享更多行业应用测试的结果,有些会用到多GPU,比如4K/8K视频编辑调色等。

细心的朋友可能发现了,我搭配测试的显卡并不是最新、最高端的型号,确实我手头没有RTX 6000 Ada、RTX A6000那些。不过,我也要感谢能暂时拥有的这些配置,毕竟本次测试的重点是对比CPU性能,更确切地说——主要是多核性能。

image.png

当我最初有2颗16核的Xeon Gold 6242 CPU作为上一代参照平台时,曾经希望能借来1颗Xeon w9-3475X(36核)或者w7-3465X(28核)用于对比;而最终却拿到了Xeon w9-3495X,要是能再有2颗Xeon Gold 6258R就更好了:)

如上表,2颗Xeon Gold 6242 CPU一共32核,TDP功耗加在一起是300W,其性能低于56核、350W的Xeon w9-3495X是正常的——在大家接下来看测试结果之前我有必要说明这一点。另外,我简单依照核心数、基础频率的比例关系,假定Xeon 6242的性能水平为100%,算出一个纸面上的6258R理想多核性能比率168%(28核相对16核)。但大家也知道,在不少的工作站应用中,多线程性能并不会随着CPU核心的增加而完全线性提升,所以这偏高的估值,也只是作为一个条件有限情况下的参考而已。

测试平台

image.png

如上表,我将要对比Xeon Gold 6242单CPU、双CPU和Xeon w9-3495X三款配置的性能。

受限于手头的硬件,我在Precision 7960工作站上配置了4通道共64GB DDR5-4800内存(满配支持8通道);于是我在上一代Precision 7920上使用了8条8GB DDR4内存,双路时每颗CPU对应4个DIMM通道;而在单Xeon Gold 6242 CPU时,这8条内存我是按Dell工作站手册的建议来安装的(如下图,保持64GB总容量不变)。

注:理论上看可能因为没有达到最高配置而影响性能发挥,但实际情况中许多客户也不是各方面都达到最高满配的,所以一样有参考价值。

M.2 NVMe SSD我在新老机型上使用的都是1TB,型号虽有不同——但即使配置相同的新型号固态盘性能也不一样。因为PCIe 4.0 SSD在新平台能充分发挥,而老机型上只能运行在PCIe 3.0带宽下。我在下文中列出的测试项目会尽量避开SSD、显卡这些对CPU性能的干扰。

image.png

当我们在Precison 7920 Tower 工作站上配置单CPU+8条内存时,手册里会建议先插满6个通道,然后再加2条

(图片点开后可放大查看,以下同)

image.png

如上图,从2007年开始推出的LGA-3647 Xeon每颗CPU是6通道内存控制器,在插8条内存时BIOS里也能显示为6通道(但此时并不是完全对称的)。

工作站综合 BenchMark、测试细节解析

本文使用的测试软件SPECworkstation 3.1,几乎是工作站领域具备权威性的综合BenchMark唯一选择。我已经有20多年使用SPECviewperf(针对工作站显卡应用)的经验——最近两次关于该测试工具的更新讨论如下:

SPECviewperf 2020基准测试更新:Quadro专业显卡再排座次

图形工作站专业显卡测试:SPECviewperf 12

关于测试整机的SPECworkstation 3.1,其前身为SPECwpc。我在《Optane SSD 900P 评测(2):比拼4x 闪存NVMe RAID0》曾经用于测试工作站的存储子系统,并给出过这样的评价——

“其综合成绩受磁盘I/O子系统性能影响较大,因此看www.spec.org网站公布的测试结果,有点像拿SSD来辅助“跑分”的比赛,看谁的盘快、看谁盘配的更多:)”

所以,我这次会排除其中的图形(源自SPECviewperf)和SSD测试项目,只对比CPU。

image.png

如上图,在SPECworkstation 3.1测试中涵盖了媒体和娱乐、产品研发、生命科学、能源、金融服务等行业的应用,具体的CPU测试负载项目我也用红圈标出来了。

image.png

上面是一份SPECworkstation测试结果的片段截图,本文主要挑每个行业领域中的CPU测试项目(CPU综合得分、具体单项得分)进行对比。

我想说接下来这个表可能才是本文的核心,甚至我为此花的精力比后面那些性能数据要多,不知您是否认同?

image.png

上表中部分描述参考了Standard Performance Evaluation Corporation网站上的介绍

而我在这里加入自己花时间研究、分析的重点,是每一项测试的CPU负载类型:单线程、多线程,还是多线程+多进程。

  • 通用操作类别中的测试,以单线程为主。7zip压缩看上去用到了多线程,实际效果请看后面对比;Python测试中确实包含一个多线程的项目;
  • 媒体和娱乐(DCC)金融服务计算,还有能源行业中的Convolution(卷积向量化)测试,都是单一进程多线程的任务。按照我的经验,图像渲染、视频编码这些应用,相对适合发挥出超多核CPU的性能(但不是每一次“拍脑袋”都会准?)所以才要看实际测试结果。
  • 产品研发(CAE)生命科学,以及能源行业的大多数测试项目,在SPECworkstation基准测试中都是采用多进程+多线程来运行的。默认设置为每个应用进程调用16线程,相当于超过8核16线程的CPU,应该就会并行跑多个进程来发挥处理器的潜力。

正是因为部分应用的特点,在单一进程调用线程数过多时效率不够好,所以就借助高性能计算的思想,把任务拆分运行。我看到SPECworkstation会把Microsoft HPC Pack组件也装上,里面有些mpi(Message Passing Interface)的东西,在部分测试运行时会调用。以2颗16核的Xeon 6242 CPU为例,如果能优化地把每2个进程分别运行在一颗物理CPU上,应该还能规避NUMA(非一致性内存访问)的性能影响。

制造业中的CAD(计算机辅助设计),其中许多三维图形操作都是单线程,总体上只能发挥出1-2个CPU核心;而产品研发(CAE)才是多核CPU的用武之地,比如本次测试中包含的结构有限元分析、流体力学计算。

SPECworkstation的CPU测试集里面多为开源软件,或者免费公开的BenchMark子项目;相比之下,ANSYS(含Fluent)、Altair、MSC等几大商业CAE软件巨头,他们对新硬件(包括超多核CPU)的优化和发挥通常更好一些,所以本文只是提供一个参考。

  • 生命科学行业,本次测试主要包含分子动力学(用于制药等领域)、医疗影像处理计算两部分。
  • 能源行业,包括一部分地震数据处理相关的。“人造地震波”并收集数据进行解释的目的,是为了分析地质结构,探测地下的油气资源。

在此我也列举几家常用的地震资料解释平台(商业软件):主要有哈里伯顿(Halliburton)的LandMark,斯伦贝谢(Schlumberger)的GeoFrame,还有一部分在用帕拉代姆(Paradigm)的Epos等。

测试结果:如何看待个别的跑分异常

本次SPECworkstation测试的结果,我以性能得分比率的形式展现给大家,将2颗Xeon Gold 6242 CPU的性能当作“1”,再列出单Xeon 6242、Xeon w9-3495X得分的倍数进行对比。

我没有做一些特殊优化,不列出BenchMark基准测试具体结果是为了避免不必要的麻烦。不过,我承诺在后续的具体应用软件测试中,会直接呈现结果数值。

image.png

首先看各领域的CPU综合得分:

  • “通用操作”以单线程测试为主,所以单/双路、不同型号CPU拉不开差距比较好理解;
  • 余下五大行业,单/双Xeon 6242 CPU的差别都比较明显,有些领域2颗CPU比1颗都接近翻倍了;只是媒体和娱乐(DCC)反而差距相对小,估计与具体测试项目有关。
  • Xeon w9-3495X 56核相对于2颗16核的提升,除了生命科学一项的综合得分有点不够理想(待进一步分析),另外几个行业都达到了1.84-1.99倍的水平,大家还记得我在前面列出的那个168%的Xeon 6258R理想值(按核心数线性估算)吗?

以上综合得分,对硬件制造商、发烧友和分析师是有用的;但具体到运行某一种或几种软件的工作站用户来说,每个应用软件的测试表现,才有更多的参考价值。下面我们来看单项测试:

image.png

在媒体和娱乐的3项测试中,说实话Blender渲染让我感觉有点意外?单颗Xeon 6242就能达到双CPU性能的89%,而56核的Xeon w9-3495X也只是跑到了2颗16核的1.33倍。该测试生成的2张渲染图如下:

image.png

image.png

作为一个整体上有些复杂的综合性BenchMark,SPECworkstation的更新相对不快。我之前在《让 45W TDPCPU 稳跑 75W 的秘密:Blender 渲染测(含Optix去噪点》等2篇评测中玩过Blender,带着这次的疑问,我想后续进一步用较新版本软件实际测试再来次评估,看该软件是否对较多的CPU核心数支持不够好?

image.png

CAE领域的3项测试表现也有些不同,Calculix和WPCcfd从单CPU到双CPU的提升幅度都很理想;但rodiniaCFD流体力学测试则有些相反——配2颗CPU在这里显得不划算,而单56核Xeon w9-3495X却能跑到2颗16核CPU性能的3.43倍。

image.png

生命科学部分,lammps和rodiniaLifeSci测试看上去都挺理想;只有namd分子动力学这一项,Xeon w9-3495X在我的测试中表现有些不正常?这应该也是导致该CPU在前面的生命科学总分不佳的原因。但我去看了Intel提供的BenchMark参考结果(在本文结尾处有列出),同一部分测试的情况不像我这样。

由于时间有限,这将作为本文中为数不多的异常结果,留待将来有时间再分析。这可能与测试工作站的配置,或者环境设置有关。

image.png

金融服务计算部分,包括Monte Carlo(蒙特卡洛)概率模拟、Black-Scholes期权定价模型和Binomial二项式期权定价模型。无论双CPU带来的提升,还是56核Xeon w9-3495X的表现都令人满意。

尽管我是每项测试运行3遍取平均值,还是遇到了个别的随机性误差——有的测试单CPU性能只跑到了双CPU不到一半的水平。

image.png

SPECworkstation能源部分的CPU测试包括Convolution 卷积向量化、FFTW(快速傅里叶变换)、Kirchhoff基尔霍夫方程、piosson(泊松)和 srmp(表面相关倍数预测)5项,Xeon w9-3495X的性能分别达到2颗Xeon 6242的1.3-2.47倍。

image.png

前面我提到过,通用操作部分由于主要是单线程测试,所以只是包含有一项Multithreaded Matrix的Python 3.6测试能反映出核心数的不同。从表面上看7zip在压缩时也能把CPU跑满,但却没有反映到SPECworkstation这项具体测试的得分上,可能在执行或者结果统计上还有处理不周之处?

octave科学计算,Xeon w9-3495X的表现不够好,测试中遇到少数比例的这种情况是正常的。毕竟新的硬件需要有些软件做相应的适配优化,才能发挥出最高的效率。

image.png

最后我也分享下3项GPU计算的结果。这部分实际“干活”的是NVIDIA A4000显卡。(扩展阅读:《GPU 渲染/光线追踪测试:NVIDIA RTX A4000 vs. GeForce 3070 》)

不过在caffe和Folding@home这2项测试中,我也看到了不同测试平台的影响。与最新的Xeon w9-3495X + Dell Precision 7960工作站相比,Xeon 6242 CPU + 7920主机只能让PCIe 4.0显卡跑在3.0带宽下,但具体到这里影响GPU发挥的,可能是CPU的单核性能——因为我观察到2个OpenCL计算任务除了GPU压力大之外,同时也有一个CPU线程也是跑满的。

由于SPECworkstation需要同时照顾AMD显卡,所以采用了OpenCL而不是CUDA,这样与N卡的实际工作环境应该有些不同。不过也算给大家一点参考吧:GPU计算系统搭配的CPU主频最好也不要太低(注:不见得适用于所有情况)。

小结:Xeon W-3400 达到预期、多核性能优化要点

image.png

由于我手头没有2颗28核的Xeon Gold 6258R,所以给大家出示下Intel的宣传数据——总体上看与我的测试结果基本相符,这次也算是做了个验证吧。

image.png

如上图,SPECworkstation基准测试解释了我 单路为王?Intel Xeon W-3400、2400工作站平台预览 提出的一个问题,也反映出的一个优化要点:在有些行业的一部分应用软件,需要用到多进程并发运行,才能比较高效地发挥出超多核CPU工作站的效率。具体值得参考的细节都在文中,我就不再重复了。

Xeon W-3400的价值并不只在性能方面,包括PCIe 5.0扩展性等,都是超出上一代双路工作站的。像以前那些为了激活更多PCIe插槽从而不得不加第二颗CPU的客户,可以不用再因此而纠结了。

本轮测试始于CPU,而现代工作站又不止是CPU的舞台,所以后续我会结合具体应用加入关于GPU的讨论。接下来的测试计划我也在前面也透露过一些,敬请期待:)

原文:企业存储技术

推荐阅读

欢迎关注企业存储技术极术专栏,欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
5615
内容数
264
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息