英伟达宣布支持UCIe，推出144核CPU和800亿晶体管GPU

来源：内容来自半导体行业观察（ID：icbank）综合，谢谢。
虽然英伟达以GPU闻名世界，但他们在CPU上的表现也备受关注。在昨日举办的GTC 2022上，Nvidia 首席执行官 Jensen Huang 终于分享了有关公司 Arm 努力的更多细节，因为他推出了公司新的 144 核 Grace CPU Superchip，这是该公司第一款专为数据中心设计的、基于Arm架构的CPU 。

据介绍，这个基于 Neoverse 的系统支持 Arm v9，可以把两个CPU与 Nvidia 新品牌的 NVLink-C2C 互连技术融合在一起。Nvidia 声称 Grace CPU Superchip 在 SPEC 基准测试中提供的性能比其自己的 DGX A100 服务器中的两个上一代 64 核 AMD EPYC 处理器高出 1.5 倍，并且是当今领先服务器芯片的两倍。

总体而言，Nvidia 表示，Grace CPU Superchip 将于 2023 年初出货，将成为市场上最快的处理器，适用于超大规模计算、数据分析和科学计算等广泛的应用。

鉴于我们对 Arm 路线图的了解，Hopper CPU Superchip基于 N2 Perseus 平台，这是第一个支持 Arm v9 的平台。该平台采用 5nm 设计，支持所有最新的连接技术，如 PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0 和 CXL 2.0，比 V1 平台提供高达 40% 的性能。

此外，Nvidia 还分享了有关 Grace Hopper Superchip 的新细节，这是其之前发布的 CPU+GPU 芯片. Nvidia 还宣布了其新的 NVLink 芯片到芯片 (C2C) 接口，这是一种支持内存一致性的芯片到芯片和芯片到芯片互连。NVLink-C2C 可提供高达 25 倍的能效，比 Nvidia 目前使用的 PCIe 5.0 PHY 的面积效率高 90 倍，支持高达 900 GB/s 或更高的吞吐量。该接口支持 CXL 和 Arm 的 AMBA CHI 等行业标准协议，并支持从基于 PCB 的互连到硅中介层和晶圆级实现的各种连接。

令人惊讶的是，Nvidia 现在允许其他供应商将该设计用于他们自己的小芯片。此外，Nvidia 宣布将支持新的 UCIe 规范。让我们深入了解细节。

在我们了解新的 Grace CPU Superchip之前，您需要快速回顾一下它的第一次实例化。Nvidia 去年首次宣布了最初称为Grace CPU的产品，但该公司没有分享太多细粒度的细节。Nvidia 现在已将第一次尝试的名称更改为 Grace Hopper Superchip。

Grace Hopper Superchip 在一个载板上有两个不同的芯片，一个 CPU 和一个 GPU。我们现在知道 CPU 有 72 个内核，使用基于 Neoverse 的设计，支持 Arm v9，并与 Hopper GPU 配对。这两个单元通过 900 GBps NVLink-C2C 连接进行通信，提供 CPU 和 GPU 之间的内存一致性，从而允许两个单元同时访问 LPDDR5X ECC 内存池，据称带宽比标准系统提高了 30 倍。

Nvidia 最初没有公布设计中使用的 LPDDR5X 数量，但在这里我们可以看到该公司现在声称拥有“600GB 内存 GPU”，其中肯定包括 LPDDR5X 内存池。我们知道 LPDDR5X 每个封装的最高容量为 64GB，这意味着 CPU 配备了高达 512GB 的 LPDDR5X。同时，Hopper GPU 通常具有 80GB 的 HBM3 容量，使我们接近 Nvidia 的 600GB 数字。让 GPU 访问该数量的内存容量可能会对某些工作负载产生变革性影响，尤其是对于经过适当优化的应用程序。

今天的公告涵盖了 Grace CPU Superchip，它基于 Grace Hopper CPU+GPU 设计，但使用第二个 CPU 封装而不是 Hopper GPU。这两个 72 核芯片也通过 NVLink-C2C 连接进行连接，提供一致的 900 GB/s 连接，将它们融合为一个 144 核单元。此外，基于 Arm v9 Neoverse 的芯片支持 Arm 的 Scalable Vector Extensions (SVE)，这是一种性能提升的 SIMD 指令，其功能类似于 AVX。

Grace CPU Superchip 使用 Arm v9，它告诉我们该芯片使用 Neoverse N2 设计. Neoverse N2 平台是 Arm 首个支持新发布的 Arm v9 扩展（如 SVE2 和内存标记）的 IP，其性能比 V1 平台高出 40%。N2 Perseus 平台采用 5nm 设计，支持 PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0 和 CXL 2.0。Perseus 设计针对每功率性能（瓦特）和每面积性能进行了优化。

考虑到 Grace CPU Superchip 的两个 CPU 和板载内存都消耗 500W 的峰值功率，这很有意义。这与其他领先的 CPU 具有竞争力，例如 AMD 的 EPYC（霄龙），每个芯片的最高功率为 280W（这不包括内存功耗）。Nvidia 声称 Grace CPU 在市场上的效率将是竞争 CPU 的两倍。

每个 CPU 都可以访问自己的 8 个 LPDDR5X 封装，因此这两个芯片仍然会受到近远内存的标准 NUMA 类趋势的影响。尽管如此，两个芯片之间增加的带宽也应该有助于减少由于竞争减少而导致的延迟，从而实现非常有效的多芯片实现。该设备还配备了 396MB 的片上缓存，但尚不清楚这是用于单个芯片还是两者兼有。

Grace CPU Superchip 内存子系统提供高达 1TB/s 的带宽，Nvidia 称这是 CPU 的首创，是支持 DDR5 内存的其他数据中心处理器的两倍多。LPDDR5X 共有 16 个封装，可提供 1TB 容量。此外，Nvidia 指出，Grace 使用了 LPDDR5X 的第一个 ECC 实现。

这给我们带来了基准。Nvidia 声称 Grace CPU Superchip 在 SPECrate\_2017\_int\_base 基准测试中比它在 DGX A100 系统中使用的两个上一代 64 核 EPYC Rome 7742 处理器快 1.5 倍。Nvidia 的这一声明基于硅前（pre-silicon）模拟，该模拟预测 Grace CPU 的得分为 740+（每个芯片 370）。AMD 的当前一代 EPYC Milan 芯片是当前数据中心的性能领导者，其 SPEC 结果从 382 到 424 不等，这意味着最高端的 x86 芯片仍将保持领先地位。但是，Nvidia 的解决方案将具有许多其他优势，例如电源效率和对 GPU 更友好的设计。

两个 Grace CPU 通过 Nvidia 新的 NVLink 芯片到芯片 (C2C) 接口进行通信。这种芯片到芯片和芯片到芯片的互连支持低延迟内存一致性，允许连接的设备同时在同一个内存池上工作。Nvidia 使用其 SERDES 和 LINK 设计技术制作了界面，重点是能源和面积效率。

Nvidia 表示，与 Nvidia 目前使用的 PCIe 5.0 PHY 相比，NVLink-C2C 可以提供高达 25 倍的能效和 90 倍的面积效率，支持高达 900 GB/s 或更高的吞吐量。此外，该接口还支持 CXL 和 Arm 的 AMBA 相干集线器接口 (CHI) 等行业标准协议。它还支持多种类型的连接，从基于 PCB 的互连到硅中介层和晶圆级实现。

对 AMBA CHI 的支持很重要，因为它支持 Arm 的相干网状网络 (CMN-700)，将 Neoverse N2 设计与智能高带宽低延迟接口与其他平台添加剂（如 DDR、HBM 和各种加速器技术，使用行业标准协议的组合，如 CCIX、CXL 和 PCIe。这种新的网格设计是基于单芯片和多芯片设计的下一代 Arm 处理器的支柱。您可以在此处阅读有关该协议的更多信息。

Nvidia还宣布将支持新的UCIe小芯片互连标准，该标注已经得到如英特尔、AMD、Arm、台积电和三星等其他行业巨头的支持。这种标准化的芯片到芯片互连旨在通过开源设计提供小芯片之间的通信，从而降低成本并培育更广泛的经过验证的小芯片生态系统。最后，UCIe 标准旨在与其他连接标准（如 USB、PCIe 和 NVMe）一样普遍和普遍，同时为小芯片连接提供卓越的功率和性能指标。英伟达对这一新举措的支持意味着我们理论上可以看到英伟达 CPU 芯片与未来的竞争芯片设计放在同一个封装中。

NVLink-C2C 现在将覆盖 Nvidia 的所有芯片，包括 GPU、CPU、SOC、NIC 和 DPU。Nvidia 还表示，它正在开放规范以允许其他公司在其小芯片设计中使用 NVLink。这为客户提供了使用 UCIe 接口或 NVLink 的选项，尽管 Nvidia 声称 NVLink-C2C 已针对比 UCIe 更低的延迟、更高的带宽和更高的能效进行了优化。

如上图所示，Grace Hopper Superchip 和 Grace CPU Superchip 系统还可以与多达 8 个 Hopper GPU 组合成多种不同的配置。这些设计使用 Nvidia 的 ConnectX-7 SmartNIC (CX7)，通过其内置的 PCIe 5.0 交换机实现 NVLink 通信，从而支持更广泛的系统到系统应用程序。

Nvidia 正在通过 Grace CPU Superchip 扩展其目标市场，现在涵盖超大规模计算、云、数据分析、HPC 和 AI 工作负载，有效地瞄准了通用服务器市场。Grace CPU Superchip 支持 Nvidia 的整个 CUDA 堆栈，并将运行 Nvidia 的所有应用程序，包括 Nvidia RTX、Nvidia AI、HPC 和 Omniverse。这些芯片将于 2023 年上半年开始出货。

Nvidia 表示，它将发布一份白皮书，提供有关架构的更详细的细节，我们将密切关注。接下来，我们先了解一下他们全新的GPU

800亿晶体管，英伟达发布新一代GPU

过去两年，尽管 COVID-19在肆虐全球，但技术却从未停歇。尤其是对 NVIIDA 来说。该公司在两年前的 GTC 2020 上推出了 Ampere GPU 架构，并且在此期间销售了比以往任何时候都更多的芯片。迈入到2022 年，他们又推出了下一代的新架构——Hopper 架构，它将支撑下一代 NVIDIA 服务器 GPU。

正如大家所看到的一样，两年前推出的Ampere 是 NVIDIA 迄今为止最成功的服务器 GPU 架构，仅在去年，数据中心销售额就超过了 100亿美元。然而，英伟达缺不可以满足于现状，因为服务器加速器市场的增长和盈利能力意味着竞争者比以往任何时候都多，他们的目标都是在英伟达把持的市场上分一杯羹。为此，NVIDIA 已经准备好（并且渴望）来谈论他们的下一代架构，以及将实现它的第一批产品。

将 NVIDIA 带入下一代服务器 GPU 的是 Hopper 架构。Hopper 架构以计算机科学先驱 Grace Hopper 的名字命名，对公司正在进行的 GPU 架构系列来说，这是一个非常重要但也是非常 NVIDIA 式的更新。因为公司的努力，他们现在将其产品线分为服务器和消费者 GPU 配置，Hopper 正在 NVIDIA 将公司做得好的一切都加倍，然后将其构建得比以往任何时候都更大。

毫不夸张地说，在过去几年中，NVIDIA 为服务器 GPU 行业制定了一套非常可靠的手册。在硬件方面，本质上归结为正确识别当前和未来趋势以及客户对高性能加速器的需求，投资于高速处理这些工作负载所需的硬件，然后优化所有这些. 对于英伟达来说，最后一步很可能是最重要的一点：英伟达投入了大量工作来释放客户的工作负载。

反过来，这是 NVIDIA Hopper 架构的前沿和中心。虽然 NVIDIA 已全面投资以从内存带宽和 I/O 到机器学习和机密计算等方面提高性能，但 Hopper 最大的性能提升是在 NVIDIA 想出如何减少工作量、使其处理器的每个领域都都更快。

Hopper 的第一代产品是 H100——NVIDIA 的旗舰服务器加速器。基于 GH100 GPU 的 GH100 是传统的 NVIDIA 服务器先行产品，该公司从高端起步，为其最大、资金最雄厚的服务器和企业客户开发加速卡。

首先也是最重要的一点，NVIDIA 再次为其旗舰 GPU 打造了大型产品。GH100 GPU 由 800 亿个晶体管组成，并建立在 NVIDIA 所称的台积电 4N 工艺节点的“定制”版本之上，这是台积电 N5 技术的更新版本，可提供更好的功率/性能特性和非常适度的密度改进. 因此，即使在 Ampere 之后仅两年，NVIDIA 也在进行全节点跳跃，带来GH100。目前 NVIDIA 并未透露裸片尺寸，因此我们没有确切的数据可以分享。但鉴于台积电工艺节点的已知密度改进，GH100 的尺寸应该接近 826mm 2 的GA100。事实上，它是 814mm 2。

与 NVIDIA 之前的服务器加速器一样，H100 卡并未配备完全启用的 GPU。因此，NVIDIA 提供的数据基于实现的 H100，但启用了许多功能单元（和内存堆栈）

在性能方面，NVIDIA 并未提前引用任何标准矢量性能数据。然而，他们引用了张量性能，具体取决于格式。数据显示，它比 A100 加速器快 3 倍或 6 倍。我们将看到这在时钟速度增加与更大或更多张量核心之间是如何分解的，但显然 NVIDIA 再次以张量性能投入更多硬件，到目前为止，这一策略对他们来说效果很好。

从官方层面，NVIDIA 喜欢引用启用稀疏性的数字，但出于我们规格表的目的，我使用非稀疏数字与以前的 NVIDIA 硬件以及竞争硬件进行更多的比较。启用稀疏性后，TF32 的性能可以翻倍。

内存带宽也比上一代显著的提高，H100 提供了 3TB/秒的带宽。这次带宽的增加得益于HBM3的使用，NVIDIA 成为第一个使用最新一代高带宽内存版本的加速器供应商。H100 将配备 6 个 16GB 内存堆栈，其中 1 个堆栈被禁用。最终结果是 80GB 的 HBM3 以 4.8Gbps/pin 的数据速率运行，并连接到 5120 位内存总线。

NVIDIA 将提供两种通常的 H100 规格：用于高性能服务器的SXM mezzanine和用于更主流服务器的 PCIe 卡。与上一代相比，这两种外形尺寸的功率要求都显著提高。NVIDIA 为 SXM 版本的显卡提供了令人瞠目结舌的700 瓦 TDP，比 A100 官方的 400W TDP 高出 75%。不管是好是坏，NVIDIA 在这里没有任何阻碍，尽管晶体管功率扩展的持续下降也没有给 NVIDIA 带来任何好处。

冷却如此热的 GPU 将是一项有趣的任务，尽管不会超出当前的技术。在这些功率水平下，我们几乎可以肯定会关注液体冷却，SXM 外形非常适合这种情况。不过，值得注意的是，竞争对手的 OAM 外形尺寸——本质上是开放计算项目对用于加速器的 SXM 的看法——被设计为最高 700W。因此，假设服务器供应商不采用奇特的冷却方法，NVIDIA 似乎正在接近mezzanine显卡所能处理的上限。

同时，H100 PCie 卡的 TDP 将从今天的 300W 提高到 350W。鉴于 300W 是 PCIe 卡的传统限制，看看 NVIDIA 及其合作伙伴如何让这些卡保持低温将会很有趣。否则，由于只有 SXM 卡的一半 TDP，我们预计 PCIe 版本的时钟/配置会明显变慢，以降低卡的功耗。

Hopper张量核心：现在使用 Transformer Engines

继续讨论 Hopper 架构的重要架构特性，我们从 NVIDIA 的 Transformer 引擎开始。Transformer 引擎名副其实，是一种新型的、高度专业化的张量核心，旨在进一步加速 Transformer ML 模型。

为了与 NVIDIA 对机器学习的关注保持一致，对于 Hopper 架构，该公司重新审视了 ML 市场的构成，以及哪些工作负载很受欢迎和/或对现有硬件的要求最高。在这方面，赢家是Transformer，这是一种深度学习模型，由于其在自然语言处理和计算机视觉中的实用性而迅速普及。Transformer 技术（例如GPT-3模型）的最新进展，以及服务运营商对更好自然语言处理的需求，使 Transformer 成为 ML 的最新重大突破。

但与此同时，对Transformer的处理要求也阻碍了更好模型的开发。简而言之，更好的模型需要越来越多的参数，仅 GPT-3 就有超过 1750 亿个参数，即使在大型 GPU 集群上，transformer 的训练时间也变得难以处理。

为此，NVIDIA 开发了一种张量核心的变体，专门用于加速 Transformer 训练和推理，他们将其称为 Transformer Engine。NVIDIA 已经优化了这个新单元，将其剥离为仅处理大多数转换器 (FP16) 使用的低精度数据格式，然后通过引入 FP8 格式进一步缩小。简而言之，新单元的目标是使用每一步所需的最低精度来训练Transformer而不损失精度。换句话说，避免做不必要的工作。

话虽如此，与始终以固定精度训练的更传统的神经网络模型不同，NVIDIA 最新的Transformer是改变精度，因为 FP8 不能在整个模型中使用。因此，Hopper 的转换器引擎可以在 FP16 和 FP8 训练之间逐层交换，利用 NVIDIA 提供的启发式算法来选择所需的最低精度。净收益是可以在 FP8 上处理的每一层的处理速度都可以提高一倍，因为变压器引擎可以以两倍于 FP16 的速度pack和处理 FP8 数据。

结合 H100 上的额外内存和更快的 NVLink 4 I/O，NVIDIA 声称大型 GPU 集群可以将Transformer训练速度提高 9 倍，这将把当今最大模型的训练时间缩短到一个更合理的时期时间，并使更大的模型更实用。

同时，在推理方面，Hopper 还可以立即使用自己的 FP8 训练模型进行推理。这是 Hopper 的一个重要区别，因为它允许客户跳过将训练有素的Transformer模型转换和优化到 INT8 的过程。NVIDIA 并未声称坚持使用 FP8 而不是 INT8 带来的任何特定性能优势，但这意味着开发人员可以享受与在 INT8 模型上运行推理相同的性能和内存使用优势，而无需先前所需的转换步骤。

最后，NVIDIA 声称 H100 的Transformer推理性能比 A100 提高了 16 倍到 30 倍。就像他们的训练声明一样，这是 H100 集群与 A100 集群的对比，因此内存和 I/O 改进也在这里发挥了作用，但它仍然强调 H100 的Transformer引擎不仅仅是为了加快训练速度。

DPX 指令：GPU 的动态编程

NVIDIA 对 Hopper 架构的另一项重大智能改进来自动态编程领域。对于他们最新一代的技术，NVIDIA 正在通过添加一组仅用于动态编程的新指令来增加对编程模型的支持。该公司正在调用这些 DPX 说明。

简而言之，动态编程是一种将复杂问题以递归方式分解为更小、更简单的问题，然后首先解决这些更小问题的方法。动态规划的关键特征是，如果其中一些子问题相同，则可以识别并消除这些冗余——这意味着子问题可以解决一次，并将其结果保存以供将来在更大的问题中使用。

所有这一切都意味着，与 Sparsity 和 Transformer Engines 一样，NVIDIA 正在实施动态编程，以允许他们的 GPU 摆脱更多的工作。通过消除可以根据动态编程规则分解的工作负载的冗余部分，NVIDIA 的 GPU 需要做的工作要少得多，而且它们可以更快地产生结果。

尽管与 Transformer 引擎不同，通过 DPX 指令添加动态编程支持与其说是加速 GPU 上的现有工作负载，不如说是在 GPU 上启用新的工作负载。Hopper 是第一个支持动态编程的 NVIDIA 架构，因此可以通过动态编程解决的工作负载通常在 CPU 和 FPGA 上运行。在这方面，这是 NVIDIA 发现了他们可以从 CPU 窃取并在 GPU 上运行的更多工作负载。

总体而言，NVIDIA 声称单个 H100 上的动态编程算法性能与 A100 上的幼稚执行相比提高了 7 倍。

至于 DPX 指令对现实世界的影响，NVIDIA 将路线规划、数据科学、机器人技术和生物学列为新技术的潜在受益者。这些领域已经使用了几种著名的动态规划算法，例如 Smith-Waterman 和 Flyod-Warshall，它们对基因序列对齐进行评分并分别找到目的地对之间的最短距离。

总体而言，动态编程是高性能工作负载中比较小众的领域之一。但 NVIDIA 认为，一旦有合适的硬件支持，它就可以很好地适用于 GPU。

机密计算：保护 GPU 数据免遭窥探

远离以性能为中心的功能，NVIDIA 对 Hopper 架构的另一项重大推动是在安全方面。随着云计算环境（尤其是共享 VM 环境）中 GPU 使用的扩展，该公司正在将新的重点放在相关的安全问题上，以及如何保护共享系统的安全。

这些努力的最终结果是，Hopper 正在为可信执行环境引入硬件支持。具体来说，Hopper 支持创建 NVIDIA 所谓的机密虚拟机，其中 VM 环境中的所有数据都是安全的，并且所有进入（和离开）环境的数据都是加密的。

NVIDIA 在我们的预先简报中没有详细介绍支持其新安全功能的太多技术细节，但据该公司称，它是新硬件和软件功能组合的产物。特别值得注意的是，进出 GPU 时的数据加密/解密速度足以以 PCIe 线速（64GB/秒）完成，这意味着在使用此安全性时，实际主机到 GPU 带宽不会减慢特征。

反过来，这种受信任的执行环境旨在抵抗所有形式的篡改。GPU 本身的内存内容由 NVIDIA 所谓的“硬件防火墙”保护，它可以防止外部进程接触它们，同样的保护也扩展到 SM 中的传输中数据。据说，受信任的环境也可以防止操作系统或管理程序从上面访问 GPU 的内容，将访问权限限制为仅 VM 的所有者。也就是说，即使对 GPU 进行物理访问，也不应该能够访问 hopper 上的安全 VM 中的数据。

归根结底，NVIDIA 的目标似乎是让他们的客户在使用 GPU 处理敏感数据时感到舒适，方法是让他们在安全模式下工作时有很多硬件可以闯入。反过来，这不仅是为了保护传统的敏感数据，例如医疗数据，也是为了保护 NVIDIA 的一些客户现在正在创建的高价值 AI 模型。考虑到创建和训练模型所需的所有工作，客户不希望他们的模型被复制，无论是在共享云环境中还是从物理上不安全的边缘设备中退出。

多实例 GPU v2：现在具有隔离性

作为 NVIDIA 在机密计算方面的安全工作的延伸，该公司还将这些保护扩展到其多实例 GPU (MIG) 环境。MIG 实例现在可以完全隔离，实例和主机之间的 I/O 也完全虚拟化和安全，基本上授予 MIG 实例与 H100 整体相同的安全功能。总体而言，这使 MIG 更接近 CPU 虚拟化环境，其中各种 VM 假定彼此不信任并保持隔离。

NVLink 4：将芯片 I/O 带宽扩展至 900GB/秒

Hopper 架构还带来了 NVIDIA 的 NVLink 高带宽互连的新版本，用于将 GPU（很快会扩展到CPU）连接在一起，以便在可以扩展到多个 GPU 的工作负载中获得更好的性能。NVIDIA 在其每一代旗舰 GPU 上都在 NVLink 上进行了迭代，这次也不例外，他们推出了 NVLink 4。

在等待 NVIDIA 全面披露技术规格的同时，该公司已确认 NVLink 单芯片带宽已从 A100 的 600GB/秒增加到 H100 的 900GB/秒。请注意，这是 NVLink 支持的所有单个链路上的所有上行和下行带宽的总和，因此将这些数字减半以获得特定的传输/接收速率。

900GB/秒表示 H100 的 I/O 带宽增加了 50%。这并不像 H100 的总处理吞吐量那么大，但考虑到实现更快的网络速率的复杂性不断升级，这是一个现实的改进。

鉴于 NVLink 3 已经以 50 Gbit/秒的信号速率运行，尚不清楚额外的带宽是由更快的信号速率提供的，还是 NVIDIA 再次调整了来自 GPU 的链接数量。NVIDIA 之前更改了 A100 的 NVLink 通道配置，当他们将通道宽度减半并将通道数量增加一倍时，同时将信号速率提高了一倍。在此基础上添加通道意味着不必弄清楚如何进一步提高信号速率，但这也意味着 NVLink I/O 所需的引脚数量增加了 50%。

同样值得注意的是，NVIDIA 正在通过 Hopper 添加 PCIe 5.0 支持。由于 PCIe 仍用于主机到 GPU 的通信（至少在 Grace 准备好之前），这意味着 NVIDIA 已经将其 CPU-GPU 带宽翻了一番，让他们能够更好地保持 H100 的供电。尽管充分利用 PCIe 5.0 需要一个支持 PCIe 5.0 的主机 CPU，但 AMD 或 Intel 还没有提供这种支持。据推测，到 NVIDIA 在第三季度发布 H100 时，会有人准备好硬件并发货，尤其是因为 NVIDIA 喜欢对其 DGX 预构建服务器进行同质化。

最后，随着 H100/NVLink 4 的推出，NVIDIA 也利用这段时间宣布了一款新的外置 NVLink 交换机。这种外部开关超越了 NVIDIA 当前的板载 NVSwitch 功能，该功能用于帮助在单个节点内构建更复杂的 GPU 拓扑，并允许 H100 GPU 跨多个节点直接相互通信。从本质上讲，它可以替代 NVIDIA GPU 通过 Infiniband 网络进行跨节点通信。

外部 NVLInk 开关允许在单个域内将多达 256 个 GPU 连接在一起，这适用于 32 个 8 路 GPU 节点。据 NVIDIA 称，该交换机提供的总带宽为 70.4TB/秒。

然而，值得注意的是，NVLink Switch 并不是 Infiniband 的批发替代品——当然，NVIDIA 也通过其网络硬件部门进行销售。其他类型的通信（例如 CPU 到 CPU）仍然需要节点之间的 Infiniband 连接，因此外部 NVLink 网络是对 Infiniband 的补充，允许 H100 GPU 在它们之间直接聊天。

HGX For H100

最后但并非最不重要的一点是，NVIDIA 已确认他们也在为 H100 更新其 HGX 主板生态系统。HGX 主板是 NVIDIA 多 GPU 设计的主要部分，因为他们首次开始使用 SXM 外形尺寸的 GPU，HGX 主板是 NVIDIA 生产的 GPU 主板，供系统构建者用于设计完整的多 GPU 系统。HGX 板为 NVIDIA 的 SXM 外形 GPU 提供了完整的连接和安装环境，然后服务器供应商可以将电源和 PCIe 数据（除其他外）从其主板路由到 HGX 主板。对于当前的 A100 一代，NVIDIA 一直在销售 4 路、8 路和 16 路设计。

相对于 GPU 本身，HGX 是相当乏味的。但它是 NVIDIA 生态系统的重要组成部分。服务器合作伙伴可以选择 HGX 板和 GPU，然后快速将其集成到服务器设计中，而不必从头开始设计自己的服务器。在 H100 的情况下，这意味着现状将（在很大程度上）占主导地位，并且 NVIDIA 的服务器合作伙伴将能够以与以前相同的方式组装系统。

Hopper H100 加速器：2022 年第三季度发货

总结一下，NVIDIA 计划在今年第三季度推出配备 H100 的系统。这将包括 NVIDIA 的全套自建系统，包括 DGX 和 DGX SuperPod 服务器，以及来自 OEM 合作伙伴使用 HGX 基板和 PCIe 卡的服务器。尽管以典型的方式，英伟达并未公布单独的 H100 定价，理由是他们通过服务器合作伙伴销售此硬件。一旦 NVIDIA 宣布他们自己的 DGX 系统的价格，我们就会有更多的了解，但我只想说，不要指望 H100 卡会便宜。