企业存储技术 · 2020年07月17日

NVIDIA GTC随笔:实时光线追踪 vs. 影视照片级渲染

本文内容非商业用途可无需授权转载,请务必注明作者及本微信公众号,以便更好地与读者互动。

昨天的GTC__上,达索系统技术顾问严申申同学在演讲中反复提到:__他__20__年前接触的显卡还是GLoria__、GLoria II__这些,还充满回忆地谈起了后来的QuadroPlex 7000__显卡盒子。__那时我在台下就想说,当年俺就是做显卡的,对曾经的型号还是那么熟悉,有文为证《20__年变迁:__图形工作站 _&_ 专业显卡——ELSA GLoria-XXL__篇》。

image.png

明天要早起,但还是想写点东西分享给大家,到比较晚了才有点状态。这又是一个倒逼自己学习/思考的过程,只能说我的技术水平还太有限,许多领域的研究还不够深入。

由于目前工作的原因,我这两年关注工作站、专业显卡比较多一些。本次NVIDIA GTC大会的重点仍然是一些热门领域,比如AI/深度学习、光线追踪、自动驾驶乃至于云游戏(不少人都想蹭下5G);而像用户群广大的传统存量市场,比如CAD三维设计,除了每一代Quadro更新提高速度还能有啥新鲜的?

就像我之前在《_SolidWorks2020测试:GPU如何速度翻倍 & 赢画质?_》和《SolidWorks__测试(3)__:__五款显卡选择指南,__AMD__、GeForce__也来凑热闹》两篇中写的,如果说达索在之前的软件版本中未能充分发挥显卡的硬件性能,如今新版本补上来了。但这一点应该并没有用到Quadro RTX这代Tensor Core、RT Core的新特性。

image.png

上面这段300__帧的视频,我在Quadro RTX 3000__(Dell 7540__)移动工作站上渲染时间用了20__分13__秒。__关于最终渲染和实时渲染的区别,概念上我就不多写了,有兴趣的朋友可以来GTC合作伙伴展区聊聊。

反倒是《SolidWorks__渲染测试:__CPU & GPU__光线追踪性能、画质对比》中的新版本SolidWorks Visualize渲染组件,在最新一代显卡上有质的提升。详细速度对比大家可以点击链接查看,我在此就不重复列出了。

image.png

这次听NVIDIA浩南兄的技术演讲不免有点感慨,还记得10年前我也是在台下听浩南兄讲工作站:)

其中前沿的技术对我多少有点冲击,比如光线追踪的实时渲染。要是说到游戏,或者3DMark中的测试场景,大家都不难理解那是提高画面效果的,同时还要达到足够的流畅度(起码30FPS吧)。而我的关注点是工作站上的应用,也就是在CAD/CAE制造业。

制造业可视化:达索3DEXPERIENCE和CEI IC.IDO

image.png
_值得一提的是,3DEXPERIENCE就是收购的当年在工业可视化领域大名鼎鼎的RTT_。

达索3DEXPERIENCE的这段分享我没有详细记录,其中操作视频效果还是不错的,也是光线追踪,但能达到实时交互操作的效果,至少10-15FPS吧。

加上来展台交流的EPIC朋友(也就是做Unreal Engine那家公司)所说,人家对场景优化后也能做到实时光线追踪。当时我对自己搭的SolidWorks演示感觉有点压力,因为用2块RTX 5000显卡渲染一帧画面还要5秒呢,玩过传统渲染器的朋友们来评一下,这真的是技术上的差距吗?

为了在该问题上找线索,下面重点谈谈另一家重要软件厂商CEI的分享,其中列举了不少对比数字。

_注:__ICIDO__(或作IC.IDO_)是法国ESI_集团为用户提供的虚拟现实解决方案和工程虚拟样机仿真分析协同决策平台。

image.png

上面的数字看上去不小,1.5亿个多边形(三角形),大概是什么样的规模呢?我在《_VR测试:8K、移动工作站和极端挑战_》中曾拍过一个对比图,测试中一个复杂VR场景不过是1000万个三角形,后来在《NVIDIA 2080Ti__两倍于1080__性能?__8K VR&__渲染测试(__续)》里面我也讲了,GeForce RTX 2080 Ti显卡跑下来平均帧数不过65。不过我们也要注意到,Unigine Superposition测试在同时使用了70个光源,以及模拟现实世界中的纹理(材质)。

image.png

那么回过头来再看上面的3DEXPERIENCE模型,有纹理吗?光照计算也不是太复杂吧?这些和应用需求特点有关,我这里写的就是想说明:不能孤立地看待某一项指标,要全面对比才有更多的参考意义。

光线追踪和VR,鱼与熊掌?

image.png

在NV的会上,显卡/GPU性能提升估计是一个永恒的话题。上图中我们先记一下红圈标注的部分——Quadro P6000跑到94 FPS,然后接着往下看。

image.png
这里讲2__块Quadro GV100__配NVLINK__也是90FPS__,看来不是同一个测试场景?

OpenGL Mono指的就是传统单屏显示,平均217.2 FPS;VR SLI Stereo应该是2块显卡配NVLINK之后,输出到VR头盔的2个屏,此时帧率仍有197.5,相当于双卡立体显示的效率为0.903。

OptiX大家可能不陌生了,我简单写过一篇《实测:__光线追踪过去__9__年有多大改进?》。在光线追踪下,可以看到GV100也只跑到13.46 FPS,如果开全局光照则降至8.47帧/秒。

image.png

前面都是背景,然后RTX8000光线追踪跑到29 FPS,比GV100提升123%。哈哈

但别忘了,此时的分辨率只是2560 x 1440,不是VR哦。根据这个速度水平,即使您加第2片RTX8000和NVLINK,我认为当前同时支持高质量光线追踪+VR也是达不到流畅的?更不要说单眼2K、4K的VR。

image.png

这张ppt可以做对比参考。此时应该是用了光线追踪+VR,面片数为3900万(不再提1.5亿那个吓人数字了),对光线只做3级反射,而且没有全局照明。在这种情况下,谈谈沉浸式虚拟现实还是ok的。

小结

说实话以现在的硬件水平,PC上的CG游戏、以及工业可视化中的实时光追特效,还是无法和3D动漫影片的画质相比。我比较土电影看的少,大家还记得《阿凡达》的效果吗?要知道那还是当年的技术水平,一部大片动用几百台服务器/工作站最终渲染花2-3个月是很正常的。

如今的GPU的提升确实大,特别是光线追踪方面。但同时内容的要求也提高了,分辨率4K-8K,色彩空间BT.2020、12bit HDR等等。最终在硬件设备上花的钱也不一定少很多,计算和存储都是如此。

光线追踪只是个技术,可以有不同的用法,并不是说只有实时的才是最好,虽然它看上去很酷炫。工业可视化和照片级渲染的要达到的质量要求是不同的,另外UE4引擎可以用来做影视特效而许多时候也被用来做游戏场景。反过来看,Arnold、VRAY、Blender乃至SolidWorks Visualize这些渲染引擎也都不是吃素的。

这里插一个小广告:__国内做__BIM__家装行业一款领先的软件品牌打扮家,最新打造了“极光渲染引擎”,就是为RTX__显卡光线追踪做了充分优化,来加速效果图的渲染。__据我观察,实际工作时显卡负荷应该跑的比较满,以至于显卡风扇会长期保持在高转速下。

image.png

最后给大家看看我的Demo设备:Dell Precision 7920 Tower工作站上,配了2块Quadro RTX 5000显卡。具体到SolidWorks Visualize应用,其实不需要插那个NVLINK桥接器也一样工作,这个取决于应用特点和具体程序设计相关。

image.png

RTX 5000显卡本身的TDP功耗为230W,SolidWorks Visualize实际跑起来压力不算太大,每片卡大约150W左右吧。

推荐阅读

本文转载自企业存储技术微信公众号,[原文链接点这里]。
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。 进一步交流技术可以加我的微信/QQ:490834312。
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage,也欢迎关注企业存储技术极术专栏,定期更新。
42.jpg
推荐阅读
关注数
5555
内容数
236
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息