企业存储技术 · 2021年09月13日

PCIe 4.0提升几何?NVIDIA RTX A4000专业显卡测试(1)

今年初我做过PCIe 4.0 SSD的测试。在大多数情况下,由于显卡以前就是工作在PCIe 3.0 x16带宽下,所以4.0的效果可能不是那么明显。比如我看到在有些针对发烧级用户的外星人笔记本上,只把PCIe 4.0 x8分配给显卡用,这应该是为了给高速SSD留出更大空间。简单说,显卡在PCIe 4.0的性能加成还是应用相关的,具体到专业显卡,还是要跑工作站上的图形应用来看看。

在上一篇《暗藏Win7支持?NVIDIA RTX A4000专业显卡另类测试》之后,性能评估我拖的有点久。

其实在每次NVIDIA发布新的工作站显卡时,都会有一些官方宣传的性能提升,比如A4000比上一代的Quadro RTX 4000,乃至上上代P4000快了多少。但这个数往往只是概括的比例,即使提到有的应用软件,你也不知他具体做的哪个操作?用了什么样的模型/场景?显示帧率提高了多少FPS、渲染时间缩短多少秒之类。这就是我自己要实际测试一下的原因。

image.png

我第一次在PCIe 4.0平台上的显卡测试。上图中RTX A4000的具体规格,我会在下文中对比分析。

此次我初步规划了3-4篇。如果只是把测试跑完,我发现还花不了太多时间和精力,但每次整理成文分享给大家,多少会有点“煎熬”的过程。

-SPECviewperf 2020v2.0摸底测试,HD和4K分辨率(本文)

-SolidWorks 2021应用测试,含Visualize渲染;

-更多光线追踪、渲染测试(Blender、V-Ray、KeyShot、OctaneBench)…

在每次测试之前,我也会依据已有参数凭经验先来一个预估,当然测试结果未必都是符合的(这也正是测试有意思的地方)。另外我也会着重于验证新显卡在图形、CUDA计算/RTX渲染等方面的性能特点,设计、散热上有哪些需要注意的地方。


涡轮风扇+双侧进风:单槽显卡散热上的改进

上一次测Ampere架构显卡,还是去年的《RTX 3090初测:双宽涡轮风扇设计,诀窍与“烦恼”》。大家还记得公版GeForce RTX 3080/3090那样的“穿透式”风扇设计吗?这次的RTX A4000专业显卡则是结合了涡轮和双侧镂空2种特点的散热器,大家想到价值在哪里了吗?

image.png

由于4000系列这个级别的专业显卡保持PCIe单插槽宽度,当上一代RTX 4000加入光追之后发热量就有些大了,满载时风扇有点吵,也听到有的用户反映过温度偏高。

我并不怀疑Quadro专业显卡在正常环境温度下的稳定性,但RTX 4000板卡本身的TDP(热设计功耗)是125W,A4000又提高到140W,仍然是单槽空间,散热设计改进势在必行。

以往的涡轮风扇(包括Turbo版RTX 3090那些双槽的)都是只能从显卡正面一侧进风,而此次A4000可以从背面同时吸入空气,这样在多卡高密度环境下的好处更明显——因为以前往往是最上面的卡温度更高。

image.png

显卡背面能看出来的,主要是保持AmpereGA10x这一代较小的板卡尺寸,16GBGDDR6显存都放在PCB的正面。

image.png

RTX A4000在散热出风口位置的开孔率比之前有提高(对比下图中的RTX4000)。不过毕竟是单槽显卡,不可能达到涡轮版RTX3090那样镂空面积,毕竟后者是350W功耗。

image.png

上图为Quadro RTX 4000,在PCIe I/O挡片上的小圆孔看着确实没有新一代A4000的散热排气效果好。

image.png

由于上一代RTX4000显卡设计了一个VirtualLink Type-C接口,可以给VR头盔等外设供电,所以功耗可达160W,不得不使用8-pin PCIe供电。A4000老老实实退回4个DP输出,不超过150W所以设计6-pin供电就ok了。

image.png

RTX A4000专业显卡上保持STEREO 3D Vision立体眼镜接口(通过一个转3pin miniDIN的配件),以及连接G-Sync同步子卡的接口。这里的G-Sync是为了保持多张显卡、乃至多台主机输出之间的同步刷新相位,在大屏拼接,特别是立体投影和VR这样的场合很重要。(扩展阅读:《NVIDIA Quadro 20周年记:专业显卡的前生今世》)

image.png

感谢之前有同行朋友对RTX A4000做了拆解,在上一篇Win7驱动测试中我已经借用过一张照片,这里再借用一张:)我对显卡拆解的兴趣没有年轻时那么大了,因为长得是否好看,都不如实际应用性能重要。

规格篇:如何把Ampere多一倍的CUDA Core用起来

image.png

以上规格都来自于NVIDIA官方文档,以及在驱动控制面板里就能看到的频率。

从Quadro M4000开始,一直到P4000、RTX 4000都是8GB显存,如今A4000终于提升到16GB,要不面对GeForceRTX 3060 12GB也有点太没面子了:)关于ECC内存校验支持,我在暗藏Win7支持?NVIDIA RTX A4000专业显卡另类测试

RTX A4000和上一代QuadroRTX 5000的显存带宽同为448GB/s,这显然不是偶然为之。我有幸从20年前Quadro开始时就接触这个行业,每次专业显卡换代时性能提升一个档次几乎被不断重演着。既然A4000已经达到了之前5000系列的16GB显存,与RTX 4000做性能对比已经没什么悬念,索性我就直接PK. RTX 5000试试。

有的朋友可能会问:在GeForce游戏卡上,新一代140W功耗的30x0可能达不到上一代230W 20x0的性能?但专业显卡除了驱动优化之外,有些型号硬件效率也较高一些。比如之前125W的RTX 4000,我的用户在有些应用(如:VR)中发现能接近甚至略微超过GeForce RTX 2070(180W)的性能,这还不是传统OpenGL的制造业3D设计。

RTX A4000的CUDA计算核心为6144个,看上去正好是上一代RTX 5000的2倍,RTX 4000就更不用说了。不过NVIDIA也特别注明了是Ampere架构的CUDA Cores。我在《NVIDIA Tensor Core对RTX显卡光线追踪的性能影响》介绍过这个“数字游戏”背后的秘密。

1234.png
由于GA104的白皮书还没有出来,我仍然引用这张GA102白皮书中的GA10x StreamingMultiprocessor(SM)示意图。由于Ampere架构的INT32整数单元也能改用于浮点,所以FP32单精度性能相当于翻倍了。而在INT32计算中可用的CUDA Cores,我理解实际上只有NVIDIA标称的一半。

image.png

在有些计算测试中,GPU-Z看到的RTXA 4000 GPU Boost频率比标称的1560MHz还要高。不过每款显卡都有TDP限制,像Tensor Core、RT Core还有显存控制器这些也算发热大户吧。我理解如果多几个单元压力同时跑上去,GPU时钟/传统CUDA算力就要牺牲一些来做取舍了。

之前我看到有人用AIDA64的GPGPU测试来验证Ampere的单精度浮点性能,这次A4000测出的19508 GFLOPS确实与CUDA核心数对等。但不是所有应用/软件都能把翻倍的CUDA核心用起来,如下图说明:

image.png
这是以RTX 6000为例。在驱动支持CUDA 11 / 8.6计算架构设计的硬件上,如果运行CUDA 10或更早版本,会由于SM8.6未定义,而只用到每SM单元的64核。也就是INT32不能重定义为FP32来使用。

image.png

而当实际Runtime版本为CUDA 11.2时,RTX A6000的10752个CUDA核心就火力全开了,上图显示128 CUDA Cores X 84 Multiprocessors

想发挥这一点,简单地说应用程序需要用新版本CUDA重新编译。对于使用现成商业或开源软件的工作站用户,就要看软件或插件什么时候提供支持了。在后面两篇测试中,我也会尽量用新版本三维设计软件来验证一下。

SPECviewperf测试:RTX A4000为何在4K分辨率下更好?

终于到了测试环节,关于SPECviewperf 2020基准测试更新:Quadro专业显卡再排座次我去年已经有过介绍。这次使用最新的2.0版本,说是SolidWorks子测试项目有点更新,成绩不适合与之前的版本直接对比。

image.png

本次使用的硬件平台是一款Dell支持PCIe 4.0的主机,配置11代Intel Core i7-11700 CPU,并没有特别做性能调优。我使用2款显卡,分别在1920x1080以及3840x2160的分辨率下运行了测试。

由于Quadro RTX 5000还是PCIe 3.0 x16的主机接口,在测试之前我曾猜测RTX A4000可能会因为PCIe 4.0而在较高分辨率下有些获益。大家可以看看下面的测试结果。

image.png

首先是在1920x1080(HD)分辨率下,RTX A4000与RTX 5000性能大都比较接近、互有胜负。来自Siemens NX的snx-04一项测试,A4000领先的多一些。

image.png

snx-04测试还是由较早版本的Siemens PLM NX 8.0应用程序生成的图形工作负载轨迹创建的,2个模型大小分别为715万、845万个顶点,我在4年前的《性能暴降62%?图形工作站老司机踩坑记》测试中就介绍过。我们本次测试的2款显卡跑这个有点大材小用的感觉,所以帧速度达到400 FPS以上。

image.png
3840x2160(4K)分辨率下,我看到RTX A4000在大多数测试项目中处于小幅领先,其中maya-06的差距最大。不过也有点意外,前面1920x1080分辨率下相比RTX 5000的优势又被追回去了。

image.png
上面是我在4K测试中的实际截图,不知从这里点开是否还能放那么大。maya-06视图集是根据Autodesk Maya 2017应用程序生成的图形工作负载的轨迹创建的,感觉也有点老了,场景不够复杂所以能跑到200 FPS左右。

SPECviewperf测试集具有一定的全面性,它包含了CAD/AEC/DCC、工程制造/建筑/媒体娱乐/能源/生物医疗行业中的3D设计或重建场景,RTX A4000专业显卡在这一轮初步达到了Quadro RTX 5000同级性能水平。

而对于一名接触工作站的老鸟来说,SPECviewperf只能算一个初步的摸底,我还要跑更多的实际应用软件来测试。图形工作站的一个特点是:三维软件的编辑模式通常是单线程,有些情况下CPU单核性能会成为瓶颈而不是显卡。除了显示加速之外,还有另一个重要的方向——GPU计算/渲染性能需要评估,也就是CUDA、Tensor/RT光线追踪这些方面了。

作者:企业存储技术
原文:https://mp.weixin.qq.com/s/jLQyqHoq9fqAzFYR-NvjbA

推荐阅读

欢迎关注企业存储技术极术专栏
3 阅读 1k
推荐阅读
0 条评论
关注数
3221
内容数
152
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
Arm中国学堂公众号
关注Arm中国学堂
实时获取免费 Arm 教学资源信息
Arm中国招聘公众号
关注Arm中国招聘
实时获取 Arm 中国职位信息