2

企业存储技术 · 2022年03月24日

NVIDIA H100 GPU架构白皮书：2倍功耗SMX只比PCIe 5计算卡快25%

前天刚跟大家分享过支持PCIe Gen5的主机平台（以“小”见大：从Precision 3660看工作站技术发展趋势），适逢NVIDIA GTC大会，又有更多新品、技术资料出来了。其中最引人注目的应该是H100 GPU，其中也包括对PCIe 5.0的支持（当然“原Tesla系列”GPU计算卡主要是针对服务器设计，像H100这样的不适用在工作站上）。

《NVIDIA H100 Tensor Core GPU Architecture》要问下载链接在哪里，请移步文末，或者可以从NV官网找。

SXM模块的H100 GPU设计功耗高达700W，散热设计有点难度吧？

这个Grace Hopper“超级芯片”，是把Arm CPU + H100 GPU放在一起，芯片间互连的带宽高达900GB/s。

H100 1个SM流处理器单元的结构。

H100这一代特别加强了FP8浮点计算。

如上表，H100和A100在支持稀疏精度时的性能，都是常规Tensor Core性能的2倍。

我们看到，NVIDIA能把PCIe 5（插卡形态）H100的TDP功耗控制在350W；而700W的SXM模块的H100，在性能上只领先PCIe插卡版本25%。

功耗问题应该还是出在高速I/O上，SXM支持的NVLINK控制器通道显然要多不少。上一代A100在性能接近的情况下，也是SMX的功耗400W而PCIe只有250W。

关于DGX系统中的互连我就不多聊了，有兴趣的朋友可以细读资料。NV以外搞AI的小伙伴们，还要不要更新一版产品ppt呢：）

NVIDIA H100 GPU架构白皮书分享：https://nvdam.widen.net/s/9bz...

作者：唐僧 huangliang
原文：企业存储技术

推荐阅读

欢迎关注企业存储技术极术专栏

2 阅读 6.7k

推荐阅读

Kubernetes Nvidia GPU Monitor & Grafana Dashboard 2 DevZone | NVIDIA HPC SDK NVIDIA 全面转向开源 GPU 内核模块 DevZone | NVIDIA Aerial SDK DevZone | NVIDIA cuBLAS库 DevZone | NVIDIA cuDNN

企业存储技术

关注数

5635

内容数

294

关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat：490834312

关注专栏专栏主页

目录

极术微信服务号

关注极术微信号
实时接收点赞提醒和评论通知

安谋科技学堂公众号

关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源

安谋科技招聘公众号

关注安谋科技招聘
实时获取安谋科技中国职位信息