NVIDIA数据中心GPU新增3卡：双精度A30、支持图形的A10、A16

作者：唐僧 huangliang
来源：企业存储技术

GTC 2021已经不是新闻了吧：）虽然我有点羡慕能熬夜看直播，或者白天写东西的朋友；不过稍晚一点沉下心来，整体看看NVIDIA数据中心GPU产品线全貌，以及几款新卡在其中的定位，感觉也不错。

现学现卖哈，本文暂不讨论太深入的技术细节。

图片点击后可放大，以下同。__我用红框标出的专注于计算，而蓝框则针对图形应用，当然A10__和T4__也兼顾机器学习多面手。

在本次新品发布之前，NVIDIA T4（Tesla T4）是上一代Turing核心产品；A100是安培这一代的顶级GPU；A40相当于专用于服务器的（Quadro）RTX A6000，同时支持vGPU虚拟化。

先讲下左边一列的应用领域：除了最上面的Deep Learning(DL) Training and Data Analytics分类中只有A100之外；接下来的DL Inference（推理）又多出了T4、新品A10和A30，其中单宽卡可以部署4-8块；

HPC（高性能计算）/AI除了A100之外还有A30。按照NV的传统，双精度浮点FP64性能每代卡几乎都只有最高的一款放开，所以下文中我会带大家重点看A30的资料。

Render Farms（渲染农场）这一项只有A40和A10，大概上一代T4的性能还是偏弱所以没列进来吧；而这3款卡都在图形（VDI）和云游戏的分类里，相对最特别的A16专门针对虚拟桌面（vGPU）。

NVIDIA A10 ：A40 架构的瘦身版本

NVIDIA A10__（单宽全高）

如上表，NVIDIA A10的架构特点接近A40，虽然24GB显存只有后者的一半，但计算性能没有差太多，同时150W功耗只有A40 300W的一半。较高的能耗比使它像T4那样适合高密度部署。

FP32单精度浮点性能高，是A10、A40、A6000以及高端GeForce RTX 3000系列共同的特点，我理解这些单元应该也是3D图形处理所需要的。

A10另一个要点就是全面的vGPU软件支持，包括图形的NVIDIA vPC/vApp、RTXvWS（虚拟Quadro），以及计算的Virtual Compute和Server（vCS）。它的辅助供电接口是PCIe 8-pin。

看一下图形和深度学习性能，A10大约是T4的2.2-2.5倍，这与新的Ampere架构以及高一倍的功耗比较相称吧。

A10的应用领域：左边4个Deep Learning框架大家都认识；右边则是传统图形工作站干那些活：像制造业使用的Dassault（达索）、西门子（NX）、PTCCreo，AEC建筑领域的Autodesk Revit，以及著名的Rhinoceros（犀牛）等。

NVIDIA A16 ：新一代4GPU 虚拟化 图形专用卡

NVIDIA A16__（双宽全尺寸）

从4x 16GB的显存就能看出A16这款卡是4颗GPU，说白了还是有些时候GPU虚拟化用一颗大芯片“切割”使用的效果不太理想，反而是多芯片架构更直接高效些。

虽然PCIe 4.0是新一代卡的标配，但在这里由4颗GPU分享更显价值一些。

NVIDIA仍然把这块卡的功耗控制在250W，为了避免连接多个辅助供电的复杂性，A16像A6000和A40那样使用一个8-pin CPU供电插头。

NVIDIA A30 ：一半的A100 双精度& 深度学习性能

NVIDIA A30__（双宽全尺寸）

我发现NVIDIA__的设计方向应该是发展NVDEC__专用视频解码电路，编码（Encode）则可以同时由CUDA__单元来处理，这样应该能较好地兼顾转码效率和画质。

A30的架构特点则接近A100。峰值原生FP32性能看似并不突出，但双精度浮点FP64 5.2TFlops为单精度的一半，兼具优秀的Tensor Core加速计算性能，同时功耗降低至165W。

它的24GB内存比A100 40GB的一半多点，但保持使用HBM2，带宽仍高达933GB/s。同时提供PCIe Gen4和NVLINK 200GB/s互连接口。

A100支持7个MIG（多实例GPU）硬件切分，A30则可选切分成4个6GB、2个12GB或者1个24GB。

vGPU这块，NVIDIA A30的定位只需要支持计算，本身就没有图形。

媒体加速引擎部分，A30配置4个视频解码器（NVDEC，A100是5个）、1个JPEG解码器和optical flow accelerator（OFA，光流加速器）A100也都是具备的。

关于OFA光流加速器以前我了解不多，上面列出一张截图供大家参考。

NVIDIA A30的训练和推理性能介于V100和A100之间。

A30的应用领域其实和A100类似，除了深度学习就是HPC。比如Altair、ANSYS这些经典的有限元分析、流体力学计算等。

我还在A30资料中注意到的可编程功率，可以使用nvidia-smi-pm XX（数值：W）来限制功耗，细分到每一瓦。

记得之前我测过一款国产AI计算卡，在散热不好温度超标之后会降频，而温度恢复后频率和性能却不能自动恢复。希望大家都能越做越好吧。

移动工作站RTX A 系列：功耗提升、万年不变的显存容量

仍然是__点击放大查看__，其中250W__功耗的RTX6000__我还没在哪款移动工作站上看到有支持。

移动GPU（Quadro）也是我熟悉的，最后简单看一下。我注意到，从新款的NVIDIA T1200，到RTX A2000、A3000、A4000和A5000，MAX-Q支持的TGP功耗上限都比当前一代RTX提高了不少。按道理设计上可以更灵活，不过主流移动工作站的机身尺寸，还有电源适配器也不能无限大啊。

我本来还想吐槽一下显存，A2000-A6000仍然是4GB到16GB，这在有些情况下应该会限制性能的发挥。不过还是那句话，“笔记本”里空间有限，更多的显存颗粒可能不太好放；另外一个理由就是——您有更高需求选台式工作站啊：）

推荐阅读

注：本文只代表作者个人观点，与任何组织机构无关，如有错误和不足之处欢迎在留言中批评指正。进一步交流技术可以加我的微信/QQ：490834312。
尊重知识，转载时请保留全文，并包括本行及如下二维码。感谢您的阅读和支持！《企业存储技术》微信公众号：HL_Storage，也欢迎关注企业存储技术极术专栏，定期更新。

推荐阅读

目录