烟烟(陶冶) · 2023年11月30日 · 上海市青浦区

NVIDIA GH200 NVL32在AWS里落地

 title=
                                                                                                                                                                                                                      英伟达的大杀器
                                                                                                                                                                                                                        芝能科技出品

2023年的AWS re:Invent大会上,AWS和NVIDIA宣布AWS将成为第一个提供NVIDIA GH200 Grace Hopper超级芯片的云服务提供商。这一超级芯片通过NVIDIA DGX Cloud与NVIDIA NVLink技术相连,将在Amazon Elastic Compute Cloud(Amazon EC2)上运行,为云计算带来了一场技术革命。

 title=

一)大杀器NVIDIA GH200 NVL32

NVIDIA GH200 NVL32 是针对 NVIDIA GH200 Grace Hopper 超级芯片的机架级参考设计,通过 NVLink 连接,面向超大规模数据中心。支持 16 个与 NVIDIA MGX 机箱设计兼容的双 NVIDIA Grace Hopper 服务器节点,并且可以采用液体冷却,以最大限度地提高计算密度和效率。

NVIDIA GH200 NVL32 的主要特点如下:

● 拥有 32 个 GPU NVLink 域,每个 GPU NVLink 域包含一个 GH200 Grace Hopper 超级芯片,可以访问网络中任何其他 Grace Hopper 超级芯片的内存,从而提供 19.5 TB 的 NVLink 可寻址内存。这意味着它可以突破单个系统的内存限制,实现更大的并行性和可扩展性。
● 使用 9 个 NVLink 交换机,每个交换机包含一个第三代 NVSwitch 芯片,将 32 个 GH200 GPU 连接在一起,形成一个完全连接的胖树网络。这意味着它可以实现高速的通信和低延迟的同步,提高人工智能的性能和效率。
●由 NVIDIA HPC SDK 以及全套 CUDA、NVIDIA CUDA-X 和 NVIDIA Magnum IO 库支持,可加速超过 3,000 个 GPU 应用程序。这意味着它可以提供丰富的软件生态系统,让开发者和研究者可以轻松地开发和部署人工智能应用程序。

 title=

二)NVIDIA GH200 NVL32的应用场景

NVIDIA GH200 NVL32 非常适合以下几种人工智能应用场景:

1)AI推理和训练:生成式人工智能模型可以根据给定的文本或上下文生成自然语言,广泛应用于聊天机器人、文本摘要、文本生成、机器翻译等领域,为用户提供智能的交互和服务。法学硕士需要大规模、多 GPU 训练,参数数量非常庞大,例如 GPT-3 有 1750 亿个参数,GPT-4 有 1.5 万亿个参数。NVIDIA GH200 NVL32 专为推理和训练下一代法学硕士而构建。该系统利用 32 个 NVLink 连接的 GH200 Grace Hopper 超级芯片突破了内存、通信和计算瓶颈,训练万亿参数模型的速度比 NVIDIA HGX H100 快 1.7 倍 以上。在 GPT-530B 推理模型上,NVIDIA GH200 NVL32 系统的性能比四个 H100 NVL8 系统高出 2 倍。

 title=

2)推荐系统:人工智能模型可以根据用户的偏好和行为,向用户推荐最相关和最感兴趣的内容或产品。它们广泛用于电子商务和零售、媒体和社交媒体、数字广告等领域,以实现内容个性化。

 title=

这推动了收入和商业价值。推荐器使用代表用户、产品、类别和上下文的嵌入,大小可达数十 TB。高度准确的推荐器将提供更具吸引力的用户体验,但也需要更大的嵌入和更精确的推荐器。嵌入对于人工智能模型具有独特的特征,需要大量内存、高带宽和闪电般快速的网络。NVIDIA GH200 NVL32 可提供 7 倍 的快速访问内存,并且与基于 x86 的传统设计中与 GPU 的 PCIe Gen5 连接相比,可提供 7 倍 的带宽。与采用 x86 的 H100 相比,它可以实现 7 倍 详细的嵌入。NVIDIA GH200 NVL32 还可以为具有大量嵌入表的模型提供高达 7.9 倍 的训练性能。

3)图神经网络:图神经网络是一种人工智能模型,可以将深度学习的预测能力应用于丰富的数据结构,这些数据结构将对象及其关系描述为图中由线连接的点。科学和工业的许多分支已经将有价值的数据存储在图数据库中。深度学习用于训练预测模型,从图表中挖掘新的见解。

 title=

总结:

Amazon和NVIDIA推动NVIDIA DGX Cloud即将在AWS上推出,将成为首家在DGX云中提供NVIDIA GH200 NVL32,并将其作为EC2实例的云服务提供商。NVIDIA GH200 NVL32解决方案包含32个GPU NVLink域和19.5 TB的大容量统一内存。在GPT-3的训练和LLM推理方面明显优于先前的模型。NVIDIA GH200 NVL32的CPU-GPU内存互连速度非常快,提高了应用程序的内存可用性。该技术是超大规模数据中心可扩展设计的一部分,由NVIDIA软件和库提供支持,可加速数千个GPU应用程序。NVIDIA GH200 NVL32特别适用于LLM训练和推理、推荐系统、GNN等任务,为人工智能和计算应用程序带来显著的性能改进。

推荐阅读
关注数
11957
内容数
700
专注于汽车电子工程领域,紧跟技术创新,助力行业发展
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息