PCIe 4.0提升几何？NVIDIA RTX A4000专业显卡测试(1)

今年初我做过PCIe 4.0 SSD的测试。在大多数情况下，由于显卡以前就是工作在PCIe 3.0 x16带宽下，所以4.0的效果可能不是那么明显。比如我看到在有些针对发烧级用户的外星人笔记本上，只把PCIe 4.0 x8分配给显卡用，这应该是为了给高速SSD留出更大空间。简单说，显卡在PCIe 4.0的性能加成还是应用相关的，具体到专业显卡，还是要跑工作站上的图形应用来看看。

在上一篇《暗藏Win7支持？NVIDIA RTX A4000专业显卡另类测试》之后，性能评估我拖的有点久。

其实在每次NVIDIA发布新的工作站显卡时，都会有一些官方宣传的性能提升，比如A4000比上一代的Quadro RTX 4000，乃至上上代P4000快了多少。但这个数往往只是概括的比例，即使提到有的应用软件，你也不知他具体做的哪个操作？用了什么样的模型/场景？显示帧率提高了多少FPS、渲染时间缩短多少秒之类。这就是我自己要实际测试一下的原因。

我第一次在PCIe 4.0平台上的显卡测试。上图中RTX A4000的具体规格，我会在下文中对比分析。

此次我初步规划了3-4篇。如果只是把测试跑完，我发现还花不了太多时间和精力，但每次整理成文分享给大家，多少会有点“煎熬”的过程。

-SPECviewperf 2020v2.0摸底测试，HD和4K分辨率（本文）

-SolidWorks 2021应用测试，含Visualize渲染；

-更多光线追踪、渲染测试（Blender、V-Ray、KeyShot、OctaneBench）…

在每次测试之前，我也会依据已有参数凭经验先来一个预估，当然测试结果未必都是符合的（这也正是测试有意思的地方）。另外我也会着重于验证新显卡在图形、CUDA计算/RTX渲染等方面的性能特点，设计、散热上有哪些需要注意的地方。

涡轮风扇+双侧进风：单槽显卡散热上的改进

上一次测Ampere架构显卡，还是去年的《RTX 3090初测：双宽涡轮风扇设计，诀窍与“烦恼”》。大家还记得公版GeForce RTX 3080/3090那样的“穿透式”风扇设计吗？这次的RTX A4000专业显卡则是结合了涡轮和双侧镂空2种特点的散热器，大家想到价值在哪里了吗？

由于4000系列这个级别的专业显卡保持PCIe单插槽宽度，当上一代RTX 4000加入光追之后发热量就有些大了，满载时风扇有点吵，也听到有的用户反映过温度偏高。

我并不怀疑Quadro专业显卡在正常环境温度下的稳定性，但RTX 4000板卡本身的TDP（热设计功耗）是125W，A4000又提高到140W，仍然是单槽空间，散热设计改进势在必行。

以往的涡轮风扇（包括Turbo版RTX 3090那些双槽的）都是只能从显卡正面一侧进风，而此次A4000可以从背面同时吸入空气，这样在多卡高密度环境下的好处更明显——因为以前往往是最上面的卡温度更高。

显卡背面能看出来的，主要是保持AmpereGA10x这一代较小的板卡尺寸，16GBGDDR6显存都放在PCB的正面。

RTX A4000在散热出风口位置的开孔率比之前有提高（对比下图中的RTX4000）。不过毕竟是单槽显卡，不可能达到涡轮版RTX3090那样镂空面积，毕竟后者是350W功耗。

上图为Quadro RTX 4000，在PCIe I/O挡片上的小圆孔看着确实没有新一代A4000的散热排气效果好。

由于上一代RTX4000显卡设计了一个VirtualLink Type-C接口，可以给VR头盔等外设供电，所以功耗可达160W，不得不使用8-pin PCIe供电。A4000老老实实退回4个DP输出，不超过150W所以设计6-pin供电就ok了。

RTX A4000专业显卡上保持STEREO 3D Vision立体眼镜接口（通过一个转3pin miniDIN的配件），以及连接G-Sync同步子卡的接口。这里的G-Sync是为了保持多张显卡、乃至多台主机输出之间的同步刷新相位，在大屏拼接，特别是立体投影和VR这样的场合很重要。（扩展阅读：《NVIDIA Quadro 20周年记：专业显卡的前生今世》）

感谢之前有同行朋友对RTX A4000做了拆解，在上一篇Win7驱动测试中我已经借用过一张照片，这里再借用一张：）我对显卡拆解的兴趣没有年轻时那么大了，因为长得是否好看，都不如实际应用性能重要。

规格篇：如何把Ampere多一倍的CUDA Core用起来

以上规格都来自于NVIDIA官方文档，以及在驱动控制面板里就能看到的频率。

从Quadro M4000开始，一直到P4000、RTX 4000都是8GB显存，如今A4000终于提升到16GB，要不面对GeForceRTX 3060 12GB也有点太没面子了：）关于ECC内存校验支持，我在暗藏Win7支持？NVIDIA RTX A4000专业显卡另类测试。

RTX A4000和上一代QuadroRTX 5000的显存带宽同为448GB/s，这显然不是偶然为之。我有幸从20年前Quadro开始时就接触这个行业，每次专业显卡换代时性能提升一个档次几乎被不断重演着。既然A4000已经达到了之前5000系列的16GB显存，与RTX 4000做性能对比已经没什么悬念，索性我就直接PK. RTX 5000试试。

有的朋友可能会问：在GeForce游戏卡上，新一代140W功耗的30x0可能达不到上一代230W 20x0的性能？但专业显卡除了驱动优化之外，有些型号硬件效率也较高一些。比如之前125W的RTX 4000，我的用户在有些应用（如：VR）中发现能接近甚至略微超过GeForce RTX 2070（180W）的性能，这还不是传统OpenGL的制造业3D设计。

RTX A4000的CUDA计算核心为6144个，看上去正好是上一代RTX 5000的2倍，RTX 4000就更不用说了。不过NVIDIA也特别注明了是Ampere架构的CUDA Cores。我在《NVIDIA Tensor Core对RTX显卡光线追踪的性能影响》介绍过这个“数字游戏”背后的秘密。

由于GA104的白皮书还没有出来，我仍然引用这张GA102白皮书中的GA10x StreamingMultiprocessor(SM)示意图。由于Ampere架构的INT32整数单元也能改用于浮点，所以FP32单精度性能相当于翻倍了。而在INT32计算中可用的CUDA Cores，我理解实际上只有NVIDIA标称的一半。

在有些计算测试中，GPU-Z看到的RTXA 4000 GPU Boost频率比标称的1560MHz还要高。不过每款显卡都有TDP限制，像Tensor Core、RT Core还有显存控制器这些也算发热大户吧。我理解如果多几个单元压力同时跑上去，GPU时钟/传统CUDA算力就要牺牲一些来做取舍了。

之前我看到有人用AIDA64的GPGPU测试来验证Ampere的单精度浮点性能，这次A4000测出的19508 GFLOPS确实与CUDA核心数对等。但不是所有应用/软件都能把翻倍的CUDA核心用起来，如下图说明：

这是以RTX 6000为例。在驱动支持CUDA 11 / 8.6计算架构设计的硬件上，如果运行CUDA 10或更早版本，会由于SM8.6未定义，而只用到每SM单元的64核。也就是INT32不能重定义为FP32来使用。

而当实际Runtime版本为CUDA 11.2时，RTX A6000的10752个CUDA核心就火力全开了，上图显示128 CUDA Cores X 84 Multiprocessors。

想发挥这一点，简单地说应用程序需要用新版本CUDA重新编译。对于使用现成商业或开源软件的工作站用户，就要看软件或插件什么时候提供支持了。在后面两篇测试中，我也会尽量用新版本三维设计软件来验证一下。

SPECviewperf测试：RTX A4000为何在4K分辨率下更好？

终于到了测试环节，关于SPECviewperf 2020基准测试更新：Quadro专业显卡再排座次我去年已经有过介绍。这次使用最新的2.0版本，说是SolidWorks子测试项目有点更新，成绩不适合与之前的版本直接对比。

本次使用的硬件平台是一款Dell支持PCIe 4.0的主机，配置11代Intel Core i7-11700 CPU，并没有特别做性能调优。我使用2款显卡，分别在1920x1080以及3840x2160的分辨率下运行了测试。

由于Quadro RTX 5000还是PCIe 3.0 x16的主机接口，在测试之前我曾猜测RTX A4000可能会因为PCIe 4.0而在较高分辨率下有些获益。大家可以看看下面的测试结果。

首先是在1920x1080（HD）分辨率下，RTX A4000与RTX 5000性能大都比较接近、互有胜负。来自Siemens NX的snx-04一项测试，A4000领先的多一些。

snx-04测试还是由较早版本的Siemens PLM NX 8.0应用程序生成的图形工作负载轨迹创建的，2个模型大小分别为715万、845万个顶点，我在4年前的《性能暴降62%？图形工作站老司机踩坑记》测试中就介绍过。我们本次测试的2款显卡跑这个有点大材小用的感觉，所以帧速度达到400 FPS以上。

3840x2160（4K）分辨率下，我看到RTX A4000在大多数测试项目中处于小幅领先，其中maya-06的差距最大。不过也有点意外，前面1920x1080分辨率下相比RTX 5000的优势又被追回去了。

上面是我在4K测试中的实际截图，不知从这里点开是否还能放那么大。maya-06视图集是根据Autodesk Maya 2017应用程序生成的图形工作负载的轨迹创建的，感觉也有点老了，场景不够复杂所以能跑到200 FPS左右。

SPECviewperf测试集具有一定的全面性，它包含了CAD/AEC/DCC、工程制造/建筑/媒体娱乐/能源/生物医疗行业中的3D设计或重建场景，RTX A4000专业显卡在这一轮初步达到了Quadro RTX 5000同级性能水平。

而对于一名接触工作站的老鸟来说，SPECviewperf只能算一个初步的摸底，我还要跑更多的实际应用软件来测试。图形工作站的一个特点是：三维软件的编辑模式通常是单线程，有些情况下CPU单核性能会成为瓶颈而不是显卡。除了显示加速之外，还有另一个重要的方向——GPU计算/渲染性能需要评估，也就是CUDA、Tensor/RT光线追踪这些方面了。

作者：企业存储技术
原文：https://mp.weixin.qq.com/s/jLQyqHoq9fqAzFYR-NvjbA

推荐阅读

欢迎关注企业存储技术极术专栏

推荐阅读

目录