NVIDIA安培预览：Tensor Core爆发FP32、DGX A100换AMD平台

今天晚上最初没打算看网上的直播，也没计划写什么。只是看到Ampere的性能参数有点惊人，顺手先分享给大家，同时简单聊几句。

目前NVIDIA官网上好像还看不到PCIe显卡形态的A100 GPU，Quadro、GeForce啥的可能要晚些宣布吧，下面主要来看这个SXM模块的规格。

按顺序从上面往下看：

1、峰值FP64浮点9.7TF，只算是常规升级吧；

2、看来是安培的Tensor Core能用来加速FP64了（之前的P100、V100以及RTX最多加速到FP16），这个峰值19.5TF比常规双精度高了一倍；

3、常规FP32是常规FP64的2倍，没啥可说的；

4、Peak FP32 Tensor Core：156TF | 312TF（With sparsity，应该是稀疏矩阵，更多的我不懂了），这个有点NB了，就像之前TensorCore对FP16加速的效果那样。应用（编程）上需要注意什么我暂时还不了解；

5、峰值BFLOAT16和FP16 Tensor Core：312TF| 624TF（Withsparsity），是上面一项的2倍；

6、峰值INT8 Tensor Core：624TOPS | 1248TOPS，又比上一项翻倍了；

7、峰值INT4 Tensor Core：1248TOPS | 2496TOPS，继续翻倍…

8、GPU内存：40GB；

9、GPU内存带宽：1,555GB/s（也上TB了）；

10、互连：NVLINK600GB/s、PCIe Gen4 64GB/s；

11、Multi-instance GPUs（多实例）：可变的实例大小，最大7个5GB。这个是不是类似于分配给容器的vGPU？7个5GB显存用去了35GB，剩下5GB总要留点做基础管理；

12、尺寸：4/8SXM用于HGX A100；

13、最大TDP功耗400W，上一代Tesla V100S都350W了，增加点也正常。

下图来自我唯一下载到的新datasheet——NVIDIA DGX A100，8 SXM模块的。

这里的AI性能直接代指FP16，主要是训练用途吧。值得一提的还有几点：

1、DGXA100用了6个NVSwitch互连，之前8模块的DGX-1（如下图）可是没有，估计是为了提高I/O效率并做到模块间对等。

DGX-1这个图许多朋友应该都不陌生了

2、CPU使用AMD Rome平台，这个非常好解释，因为Intel的PCIe 4.0还没出来。

下面我们再看看最多16模块的HGX A100：

这里再次证实，NVIDIA安培4个SXM模块不用NVSwitch，从8 GPU互连开始增加交换芯片。下面我们再看看新的第3代NVLink：

安培架构每GPU的NVLink连接数翻倍到12个，这样600GB/s总带宽，每个NVLink还是50GB/s。

今天简单分享到这里，参考信息来自：https://www.nvidia.cn/gtc/key...

推荐阅读

本文转载自企业存储技术微信公众号，[原文链接点这里]。
注：本文只代表作者个人观点，与任何组织机构无关，如有错误和不足之处欢迎在留言中批评指正。进一步交流技术可以加我的微信/QQ：490834312。
尊重知识，转载时请保留全文，并包括本行及如下二维码。感谢您的阅读和支持！《企业存储技术》微信公众号：HL_Storage，也欢迎关注企业存储技术极术专栏，定期更新。

推荐阅读

目录