英伟达秀全球最大GPU，黄仁勋从烤箱里拿出的产品果然「爆了」

是他，还是那个男人，那个熟悉的皮夹克。

5 月 14 日晚，黄仁勋在厨房召开了英伟达 GTC 2020 线上发布会。由于新冠病毒疫情影响，英伟达原计划的现场活动被迫取消，定于 3 月 24 日通过媒体发布的新闻稿也未见踪影。千呼万唤中，黄仁勋终于在烤箱前和大家见面了。

本届 GTC 从预热开始就不走寻常路，黄仁勋在大会前一天晒出了自己从烤箱里拿出了全新的安培（Ampere）架构 GPU NVIDIA A100。

英伟达1.gif

这个「全球最大」果然没有骗人

令人颇感意外的是，虽然无法举办线下活动，英伟达竟然连线上直播都懒得办，直接播放了黄仁勋在自家厨房里录制的视频完成了新品发布。果然是手里有「硬货」就不在乎形式了。

英伟达的首款安培架构 GPU 可以算「史上最强」了，基于 7nm 工艺制程，拥有 540 亿晶体管，面积为826mm²，与 Volta 架构相比性能提升了 20 倍，既可以做训练也可以做推理。

NVIDIA A100 具有 TF32的第三代 Tensor Core 核心，能在不更改任何代码的情况下将 FP32 精度下的 AI 性能提高 20倍，达到19.5万亿次/秒。

多实例 GPU-MG 可将单个 A100 GPU 分割为 7 个独立的 GPU，根据任务不同提供不同的计算力，实现最佳利用率和投资回报率的最大化。

NVIDIA A100 新的效率技术利用了AI数学固有的稀疏性，优化之后性能提升了一倍。

英伟达将 NVIDIA A100 的特性总结为以下 5 点：

1.超过 540 亿个晶体管，使其成为世界上最大的 7 纳米处理器；

2.带有 TF32 的第三代 Tensor Core 核心，这是一种新的数值格式，可加速开箱即用的单精度AI训练。NVIDIA 广泛使用的 Tensor Core 现在更加灵活，快速，且更易于使用；

3.结构稀疏性（Structural sparsity）加速，这是一种新的高效技术，可以利用AI数学固有的稀疏性来获得更高的性能；

4.多实例 GPU（Multi-instance GPU或MIG），允许将一个 A100 分割为多达七个独立的 GPU，每个 GPU 都有自己的资源；

5.第三代 NVLink 技术，使 GPU 之间的高速联接能力加倍，从而可以使多个 A100 服务器充当一个巨型 GPU。

黄仁勋说：“Ampere架构的突破性设计为英伟达第八代GPU提供了迄今为止最大的性能飞跃，集 AI 训练和推理于一身，并且其性能相比于前代产品提升了高达 20 倍。这是有史以来首次，可以在一个平台上实现对横向扩展以及纵向扩展的负载的加速。A100 将在提高吞吐量的同时，降低数据中心的成本。”

NVIDIA A100 是第一个基于 NVIDIA 安培架构的 GPU，提供了在 NVIDIA 八代 GPU 里最大的性能提升，它还可用于数据分析，科学计算和云图形，并已全面投产并交付给全球客户。

全球 18 家领先的服务提供商和系统构建商正在将 NVIDIA A100 整合到他们的服务和产品中，其中包括阿里云、AWS、百度云、思科、Dell Technologies、Google Cloud、HPE、Microsoft Azure和甲骨文。

单节点 AI 算力达 5 PFLOPS，140 台DGXA100 组成 DGXSuper POD

黄仁勋还介绍了基于 NVIDIA A100 的第三代 AI 系统 DGX-A100 AI。DGX-A100 AI 是世界上第一台单节点 AI 算力达到 5 PFLOPS 的服务器，每台 DGX A100 可以分割为多达 56 个独立运行的实例，还集合了 8 个 NVIDIA A100 GPU，每个 GPU 均支持 12 路 NVLink 互连总线。

据了解，与其他高端 CPU 服务器相比，DGXA100 的 AI 计算性能高 150 倍、内存带宽高 40 倍、IO 带宽高 40 倍。

黄仁勋说：“AI已经被应用到云计算、汽车、零售、医疗等众多领域，AI算法也正变得越来越复杂和多样。ResNet模型的算力需求从2016年到现在已经增加了3000倍，我们需要更好的解决方案。”

如此强大的 DGX-A100 AI 售价自然也不便宜，标价 19.9 万美元，约合人民币 141 万元。

此外，黄仁勋还提到了英伟达新一代 DGXSuper POD 集群，由 140 台DGXA100系统组成，AI算力达 700 Petaflops，相当于数千台服务器的性能。

据了解，首批 DGXSuper POD 将部署在美国能源部阿贡国家实验室，用于新冠病毒疫情相关的研究。

五大软硬件齐上阵，自动驾驶平台合作已敲定

除了以上两款重磅产品，黄仁勋还宣布推出了 NVIDIA Merlin，这是一个用于构建下一代推荐系统的端到端框架，该系统正迅速成为更加个性化互联网的引擎。Merlin将创建一个 100 TB 数据集推荐系统所需的时间从四天减少到 20 分钟。

英伟达此次还推出了众多 AI 领域相关产品，包括以太网智能网卡 Mellanox ConnectX-6 Lx SmartNIC、EGX 边缘 AI 平台和一系列软件更新扩展。

1.以太网智能网卡 Mellanox ConnectX-6 Lx SmartNIC

ConnectX-6 Lx 是业界首个为 25Gb/s 优化的安全智能网卡，可提供两个 25Gb/s 端口或一个 50Gb/s 端口。

2.EGX 边缘 AI 平台

EGX Edge AI 平台是首款基于 NVIDIA 安培架构的边缘 AI 产品，可接收高达 200Gbps 的数据，并将其直接发送到 GPU 内存进行 AI 或 5G 信号处理。

3.Spark 3.0

英伟达还宣布在 Spark 3.0 上支持 NVIDIA GPU 加速，基于 RAPIDS 的 Spark 3.0，打破了提取，转换和加载数据的性能基准。它已经帮助 Adobe Intelligent Services 将计算成本降低了90％。

4.NVIDIA Jarvis

黄仁勋在发布会中详细介绍了 NVIDIA Jarvis，这是一个新的端到端平台，可以充分发挥英伟达 AI 平台的强大功能，创建实时多模态对话式 AI。

5.Misty 交互 AI

现场演示中，一个名为 Misty 的 AI系统展示了实时理解并回答一系列有关天气的复杂问题的交互过程。

自动驾驶方面，英伟达也将安培架构嵌入了新的 NVIDIA DRIVE 平台。据了解，小马智行、法拉第未来等自动驾驶企业已宣布采用 NVIDIA DRIVE AGX 计算平台。

英伟达的 NVIDIA Isaac 软件定义的机器人平台还将用于宝马集团工厂。英伟达机器人技术全球生态系统涵盖配送、零售、自主移动机器人、农业、服务业、物流、制造和医疗保健各个行业。

英伟达 AI 生态全布局，中国 AI 芯片研发与发达国家差距正在缩短

英伟达这场时隔 3 年的发布会可谓诚意满满，首次推出的安培架构给足了惊喜，性能提升 20 倍的 NVIDIA A100 GPU 可谓性能飞跃。

虽然发布会并不是现场直播，但依旧爆点十足。一台就比千台强的 DGX-A100 AI 也印证了黄仁勋那就经典名言“买的越多，赚的越多”。英伟达的 AI 解决方案已经覆盖了各行各业，强大的 AI 生态正在形成。

中国工程院院士倪光南曾表示：「芯片设计门槛极高，只有极少数企业能够承受中高端芯片研发成本，这也制约了芯片领域创新。」

英伟达在本届 GTC 上推出的安培架构和基于此的一系列 AI 平台无一部显示了一个 AI 芯片巨头的实力，又一次树立了性能标杆。

根据 Gartner 的预测数据，未来 5 年内全球人工智能芯片市场规模将呈飙升趋势，自 2018 年的 42.7 亿美元，升高至 343 亿美元，增长已超过 7 倍，可见 AI 芯片市场有较大增长空间。

尽管与西方发达国家相比，中国的 AI 芯片研发还存在一定差距，但过去两年中，中国 AI 芯片初创企业已获得了数亿美元的资金。华为等公司也开发了令人印象深刻的芯片设计。

但芯片开发极具复杂性，中国人才的短缺以及缺乏多家全球销售排名前 15 位的中国半导体公司的情况表明，中国仍需要取得重大进展，才能在半导体领域与美国匹敌。

原文链接：https://segmentfault.com/a/11...

技术编辑：芒果果丨发自思否编辑部
SegmentFault 思否报道丨公众号：SegmentFault

这个「全球最大」果然没有骗人

单节点 AI 算力达 5 PFLOPS，140 台DGXA100 组成 DGXSuper POD

五大软硬件齐上阵，自动驾驶平台合作已敲定

英伟达 AI 生态全布局，中国 AI 芯片研发与发达国家差距正在缩短

推荐阅读

目录