GPU渲染/光线追踪测试：NVIDIA RTX A4000 vs. GeForce 3070

我这个公众号写GPU/显卡/工作站方面的东西，阅读量往往没有服务器和存储多，但计划好的事情还是要坚持做完。取到测试结果之后，如果不分享给大家就只能闷在我手里了，而且有时整理成图表才会有进一步的发现。

在前面几篇的SPECviewperf和SOLIDWORKS测试中，我都没有加入GeForce游戏显卡，因为传统OpenGL 3D设计软件（特别是制造业CAD）还是Quadro等专业显卡的强项。但到了渲染应用就不同了，由于做的是CUDA计算、RTX光线追踪，理论上GeForce性价比应该更好。事实真的如此吗？本文也算是在Ampere GPU上的又一次验证吧。

上图为Dell工作站里配置的GeForce RTX 3070显卡，8GB显存，单8pin PCIe辅助供电（220WTDP）。这款双风扇显卡的尺寸为2插槽宽度，与我之前介绍过的双宽涡轮风扇RTX 3090（Turbo版）、以及一些DIY显卡相比，上面这种散热器可以较好地平衡空间占用和散热噪音。

注：由于功耗的原因，Dell版本的RTX 3080和3090（散热器设计相似）都是2.5 插槽宽度。

记得我的高中化学老师（后来也是我们班主任）经常说：“结构决定性质。”NVIDIA RTX A4000和GeForceRTX 3070同为GA104核心、PCIe x16 4.0接口，A4000的16GB显存是3070容量的两倍，不过二者的显存位宽都是256位，带宽也同为448GB/s。

RTX 3070的Shader（CUDA Cores）数量为5888，比我在前文中介绍过A4000（6144个）略低，但由于220W的TDP功耗比A4000的140W高不少，GPU的Boost频率（1725 MHz）也较高。

以前看有的用户上一代显卡测试结果，QuadroRTX 4000（125W）的渲染性能甚至超过GeForce RTX 2070（175W）。不过这次对比的功耗差距似乎拉大了一些，在测试之前我还是对RTX 3070更乐观一点。

SOLIDWORKS 2021 Visualize IRAY渲染测试

背景阅读：《SolidWorks渲染测试：CPU & GPU光线追踪性能、画质对比》

首先测试的是SolidWorks2021套装中的Visualize渲染组件，我在2年前已经验证过它对NVIDIA GPU支持的很好。本次只对比上面这张图4K分辨率的渲染，因为RTX A4000显卡只需要28秒就能完成。

如上图，SOLIDWORKS Visualize推荐的渲染引擎为NVIDIAIRAY，这个需要GPU支持CUDA。

本次测试按照实际画质需求出发，渲染器选择“精细”、渲染通道设置“100”并启用降噪器。

从结果来看，Quadro RTX 5000耗时39秒，而A4000和GeForce 3070只需要28秒，可见Ampere架构光线追踪效率的改进。

我再补充一个参考数字——移动工作站上的Quadro RTX 3000专业显卡，以3840x2160分辨率渲染同一张图的时间为60秒，而它在这个测试中（排除显存容量的因素）实际上比再上一代的P5000还要快不少。

Blender 2.9.3 GPU (+CPU)渲染测试

在《让45W TDP CPU稳跑75W的秘密：Blender渲染测试（含Optix去噪点）》一文中，我曾经用过这款优秀的开源动画软件。本次测试安装了2.9.3新版本，已经正式支持NVIDIA OptiX，不再是实验性了。

我们也可以在Blender设置的Cycles渲染设备中同时勾选GPU和Intel CPU，下面的测试结果中给大家看看CPU能起到多大辅助作用。

我以前写过，在测试的这2个场景中，后面一个“Classrom教室”需要用到“降噪点”算法来渲染出正常的画质效果，本次这里统一设置为“OptiX”。

先看看Fishycat这张图，CPU计算的这16个框框（8核16线程），与GPU渲染的进度比起来还是追得比较慢。

这次GeForce RTX 3070只用了57秒完成渲染，RTX A4000略慢一点59秒，而Quadro RTX 5000需要1分16秒。当然，如果加上Corei7-11700K CPU一起干活的话，RTX A4000能够缩短至50秒。

上面图表里我还标注了显卡的TDP功耗，不难看出RTX A4000相比3070有着更好的能耗比。

Classrom教室这张图，可以看出分辨率更高一些。上面就是N卡（A4000）的渲染效果。

Classroom这张图里有着更多的光线（光照）计算，所以我们看到新一代Ampere显卡的优势更大了，同时CPU能够贡献的算力比例也更少了一点。

V-Ray 5 Benchmark CUDA、RTX渲染测试

V-Ray是一个非常流行的老牌渲染器，它为多款三维软件提供了渲染插件。

比较贴近应用的一点是，V-Ray5 Benchmark测试工具在使用CPU、CUDA（得分单位为vpaths）和RTX（得分单位为vrays）三种引擎时渲染的是不同的模型，这样就不适合跨引擎对比测试结果。

我们先看一下GPU CUDA测试，本文从这个图表以及往下都是得分越高越好。GeForce RTX 3070再一次领先于A4000（注意：显存容量没有成为瓶颈），当然Ampere架构在渲染中的优势还是那么明显。

下面再看看V-Ray GPU RTX测试结果。

使用到RT Core光线追踪单元之后，Ampere比上一代Turing显卡的优势又拉大了一点。

OctaneBench 2020渲染测试

Octane渲染器来自OTOY，它对NVIDIA RTX光线追踪支持的比较快。在OctaneBench测试过程中GPU的功耗基本能够跑满，并且显存控制器的压力也比较大。

三款显卡在这里的竞争态势，与前面的渲染测试差不太多。

KeyShot Viewer Benchmark渲染测试

KeyShot也是近年来比较流行的一个渲染器，本次测试采用KeyShot Viewer自带的Benchmark功能。当我们选择先后跑CPU和GPU时，发现显卡的加速比实在高太多了，测试耗时自然也是如此。

该Benchmark渲染的就是上面这个模型。

最后一个KeyShot测试结果我就不再重复分析了，进一步印证前面的渲染测试结论。

测试平台、供货/价格与选型杂谈

FireShot Capture 056 - GPU渲染_光线追踪测试：NVIDIA RTX A4000 vs. GeForce 3070 - mp.weixin.qq.com.png

最后带大家简单看一下，陪伴我完成这2篇测试的Dell Precision 3650 Tower工作站主机（主板芯片组W580）。塔式机箱前面板与上代3640工作站最大的一点变化，就是Type-C USB接口速率从10Gb/s提速到了20Gb/s。

如上图，3650 Tower工作站的背部接口中，我用红框标出的是可选的第二个2.5Gb RJ-45有线网口（第一个是1Gb千兆）。塔式工作站和部分商用PC仍保留PS/2键盘、鼠标接口的原因，就是有些用户对数据安全性要求较高，需要禁用USB接口设备。

在上一篇中已经带大家看过125W CPU的散热器，这次就不再出示工作站内部照片了。

最后一点，由于我是做技术工作的，关于RTXA4000、3070等当前的供货和价格情况只是略知一二，当然也是无能为力。进行摸底测试以及撰文，是希望对读者朋友选型其它型号Ampere显卡也能带来参考。

单纯从GPU渲染计算应用来看，GeForce RTX 3090单卡的性能没得说，性价比也较专业显卡更好。如果是多卡环境，特别是高密度部署，RTX A系列（即Quadro）就显现出优势了。从A4000的能耗比和16GB显存来看，可以说继承了4000系列“甜点卡”的称号。在此我只是希望它的用途，能早日从Hash计算回归到常规工作站用户的怀抱中：）

作者：企业存储技术
原文：https://mp.weixin.qq.com/s/4XKhi4Zimq0kp7KykzoLNA
推荐阅读

欢迎关注企业存储技术极术专栏

推荐阅读

目录