企业存储技术 · 2020年06月24日

NVIDIA安培预览:Tensor Core爆发FP32、DGX A100换AMD平台

今天晚上最初没打算看网上的直播,也没计划写什么。只是看到Ampere的性能参数有点惊人,顺手先分享给大家,同时简单聊几句。

image.png

目前NVIDIA官网上好像还看不到PCIe显卡形态的A100 GPU,Quadro、GeForce啥的可能要晚些宣布吧,下面主要来看这个SXM模块的规格。

image.png

按顺序从上面往下看:

1、峰值FP64浮点9.7TF,只算是常规升级吧;

2、看来是安培的Tensor Core能用来加速FP64了(之前的P100、V100以及RTX最多加速到FP16),这个峰值19.5TF比常规双精度高了一倍;

3、常规FP32是常规FP64的2倍,没啥可说的;

4、Peak FP32 Tensor Core:156TF | 312TF(With sparsity,应该是稀疏矩阵,更多的我不懂了),这个有点NB了,就像之前TensorCore对FP16加速的效果那样。应用(编程)上需要注意什么我暂时还不了解;

5、峰值BFLOAT16和FP16 Tensor Core:312TF| 624TF(Withsparsity),是上面一项的2倍;

6、峰值INT8 Tensor Core:624TOPS | 1248TOPS,又比上一项翻倍了;

7、峰值INT4 Tensor Core:1248TOPS | 2496TOPS,继续翻倍…

8、GPU内存:40GB;

9、GPU内存带宽:1,555GB/s(也上TB了);

10、互连:NVLINK600GB/s、PCIe Gen4 64GB/s;

11、Multi-instance GPUs(多实例):可变的实例大小,最大7个5GB。这个是不是类似于分配给容器的vGPU?7个5GB显存用去了35GB,剩下5GB总要留点做基础管理;

12、尺寸:4/8SXM用于HGX A100;

13、最大TDP功耗400W,上一代Tesla V100S都350W了,增加点也正常。

下图来自我唯一下载到的新datasheet——NVIDIA DGX A100,8 SXM模块的。

image.png

这里的AI性能直接代指FP16,主要是训练用途吧。值得一提的还有几点:

1、DGXA100用了6个NVSwitch互连,之前8模块的DGX-1(如下图)可是没有,估计是为了提高I/O效率并做到模块间对等。

image.png
DGX-1这个图许多朋友应该都不陌生了

2、CPU使用AMD Rome平台,这个非常好解释,因为Intel的PCIe 4.0还没出来。

下面我们再看看最多16模块的HGX A100:

image.png

这里再次证实,NVIDIA安培4个SXM模块不用NVSwitch,从8 GPU互连开始增加交换芯片。下面我们再看看新的第3代NVLink:

image.png

安培架构每GPU的NVLink连接数翻倍到12个,这样600GB/s总带宽,每个NVLink还是50GB/s。

今天简单分享到这里,参考信息来自:https://www.nvidia.cn/gtc/key...

推荐阅读

本文转载自企业存储技术微信公众号,[原文链接点这里]。
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。 进一步交流技术可以加我的微信/QQ:490834312。
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage,也欢迎关注企业存储技术极术专栏,定期更新。
42.jpg
推荐阅读
关注数
5552
内容数
235
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息