企业存储技术 · 2021年10月09日

GPU渲染/光线追踪测试:NVIDIA RTX A4000 vs. GeForce 3070

我这个公众号写GPU/显卡/工作站方面的东西,阅读量往往没有服务器和存储多,但计划好的事情还是要坚持做完。取到测试结果之后,如果不分享给大家就只能闷在我手里了,而且有时整理成图表才会有进一步的发现。

在前面几篇的SPECviewperf和SOLIDWORKS测试中,我都没有加入GeForce游戏显卡,因为传统OpenGL 3D设计软件(特别是制造业CAD)还是Quadro等专业显卡的强项。但到了渲染应用就不同了,由于做的是CUDA计算、RTX光线追踪,理论上GeForce性价比应该更好。事实真的如此吗?本文也算是在Ampere GPU上的又一次验证吧。

image.png

上图为Dell工作站里配置的GeForce RTX 3070显卡,8GB显存,单8pin PCIe辅助供电(220WTDP)。这款双风扇显卡的尺寸为2插槽宽度,与我之前介绍过的双宽涡轮风扇RTX 3090(Turbo版)、以及一些DIY显卡相比,上面这种散热器可以较好地平衡空间占用和散热噪音。

注:由于功耗的原因,Dell版本的RTX 3080和3090(散热器设计相似)都是2.5 插槽宽度。

image.png

记得我的高中化学老师(后来也是我们班主任)经常说:“结构决定性质。”NVIDIA RTX A4000和GeForceRTX 3070同为GA104核心、PCIe x16 4.0接口,A4000的16GB显存是3070容量的两倍,不过二者的显存位宽都是256位,带宽也同为448GB/s。

RTX 3070的Shader(CUDA Cores)数量为5888,比我在前文中介绍过A4000(6144个)略低,但由于220W的TDP功耗比A4000的140W高不少,GPU的Boost频率(1725 MHz)也较高。

以前看有的用户上一代显卡测试结果,QuadroRTX 4000(125W)的渲染性能甚至超过GeForce RTX 2070(175W)。不过这次对比的功耗差距似乎拉大了一些,在测试之前我还是对RTX 3070更乐观一点。

SOLIDWORKS 2021 Visualize IRAY渲染测试

image.png
背景阅读:《SolidWorks渲染测试:CPU & GPU光线追踪性能、画质对比

首先测试的是SolidWorks2021套装中的Visualize渲染组件,我在2年前已经验证过它对NVIDIA GPU支持的很好。本次只对比上面这张图4K分辨率的渲染,因为RTX A4000显卡只需要28秒就能完成。

image.png
如上图,SOLIDWORKS Visualize推荐的渲染引擎为NVIDIAIRAY,这个需要GPU支持CUDA。

image.png
本次测试按照实际画质需求出发,渲染器选择“精细”、渲染通道设置“100”并启用降噪器。

image.png
从结果来看,Quadro RTX 5000耗时39秒,而A4000和GeForce 3070只需要28秒,可见Ampere架构光线追踪效率的改进。

我再补充一个参考数字——移动工作站上的Quadro RTX 3000专业显卡,以3840x2160分辨率渲染同一张图的时间为60秒,而它在这个测试中(排除显存容量的因素)实际上比再上一代的P5000还要快不少。

Blender 2.9.3 GPU (+CPU)渲染测试
image.png

在《让45W TDP CPU稳跑75W的秘密:Blender渲染测试(含Optix去噪点)》一文中,我曾经用过这款优秀的开源动画软件。本次测试安装了2.9.3新版本,已经正式支持NVIDIA OptiX,不再是实验性了。

image.png

我们也可以在Blender设置的Cycles渲染设备中同时勾选GPU和Intel CPU,下面的测试结果中给大家看看CPU能起到多大辅助作用。
image.png
我以前写过,在测试的这2个场景中,后面一个“Classrom教室”需要用到“降噪点”算法来渲染出正常的画质效果,本次这里统一设置为“OptiX”。
image.png
先看看Fishycat这张图,CPU计算的这16个框框(8核16线程),与GPU渲染的进度比起来还是追得比较慢。

image.png
这次GeForce RTX 3070只用了57秒完成渲染,RTX A4000略慢一点59秒,而Quadro RTX 5000需要1分16秒。当然,如果加上Corei7-11700K CPU一起干活的话,RTX A4000能够缩短至50秒。

上面图表里我还标注了显卡的TDP功耗,不难看出RTX A4000相比3070有着更好的能耗比。
image.png

Classrom教室这张图,可以看出分辨率更高一些。上面就是N卡(A4000)的渲染效果。
image.png

Classroom这张图里有着更多的光线(光照)计算,所以我们看到新一代Ampere显卡的优势更大了,同时CPU能够贡献的算力比例也更少了一点。

V-Ray 5 Benchmark CUDA、RTX渲染测试

V-Ray是一个非常流行的老牌渲染器,它为多款三维软件提供了渲染插件。

image.png
比较贴近应用的一点是,V-Ray5 Benchmark测试工具在使用CPU、CUDA(得分单位为vpaths)和RTX(得分单位为vrays)三种引擎时渲染的是不同的模型,这样就不适合跨引擎对比测试结果。

image.png
我们先看一下GPU CUDA测试,本文从这个图表以及往下都是得分越高越好。GeForce RTX 3070再一次领先于A4000(注意:显存容量没有成为瓶颈),当然Ampere架构在渲染中的优势还是那么明显。
image.png
下面再看看V-Ray GPU RTX测试结果。

image.png
使用到RT Core光线追踪单元之后,Ampere比上一代Turing显卡的优势又拉大了一点。

OctaneBench 2020渲染测试
image.png
Octane渲染器来自OTOY,它对NVIDIA RTX光线追踪支持的比较快。在OctaneBench测试过程中GPU的功耗基本能够跑满,并且显存控制器的压力也比较大。
image.png

三款显卡在这里的竞争态势,与前面的渲染测试差不太多。

KeyShot Viewer Benchmark渲染测试

image.png
KeyShot也是近年来比较流行的一个渲染器,本次测试采用KeyShot Viewer自带的Benchmark功能。当我们选择先后跑CPU和GPU时,发现显卡的加速比实在高太多了,测试耗时自然也是如此。
image.png

该Benchmark渲染的就是上面这个模型。

image.png
最后一个KeyShot测试结果我就不再重复分析了,进一步印证前面的渲染测试结论。

测试平台、供货/价格与选型杂谈

FireShot Capture 056 - GPU渲染_光线追踪测试:NVIDIA RTX A4000 vs. GeForce 3070 - mp.weixin.qq.com.png

最后带大家简单看一下,陪伴我完成这2篇测试的Dell Precision 3650 Tower工作站主机(主板芯片组W580)。塔式机箱前面板与上代3640工作站最大的一点变化,就是Type-C USB接口速率从10Gb/s提速到了20Gb/s

image.png
如上图,3650 Tower工作站的背部接口中,我用红框标出的是可选的第二个2.5Gb RJ-45有线网口(第一个是1Gb千兆)。塔式工作站和部分商用PC仍保留PS/2键盘、鼠标接口的原因,就是有些用户对数据安全性要求较高,需要禁用USB接口设备。

上一篇中已经带大家看过125W CPU的散热器,这次就不再出示工作站内部照片了。

最后一点,由于我是做技术工作的,关于RTXA4000、3070等当前的供货和价格情况只是略知一二,当然也是无能为力。进行摸底测试以及撰文,是希望对读者朋友选型其它型号Ampere显卡也能带来参考。

单纯从GPU渲染计算应用来看,GeForce RTX 3090单卡的性能没得说,性价比也较专业显卡更好。如果是多卡环境,特别是高密度部署,RTX A系列(即Quadro)就显现出优势了。从A4000的能耗比和16GB显存来看,可以说继承了4000系列“甜点卡”的称号。在此我只是希望它的用途,能早日从Hash计算回归到常规工作站用户的怀抱中:)

作者:企业存储技术
原文:https://mp.weixin.qq.com/s/4XKhi4Zimq0kp7KykzoLNA
推荐阅读
欢迎关注企业存储技术极术专栏
推荐阅读
关注数
5553
内容数
235
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息