AWS Graviton4 助力加速全 Arm 架构的基础设施时代

作者：Arm 工程部设计服务总监 Tim Thornton

自 2019 年基于 Arm Neoverse N1 核心的 AWS Graviton2 推出以来，Arm 携手合作伙伴持续提升基于 Arm 架构的设计性能。如今，AWS Graviton 处理器已发展到了第四代，在 AWS Graviton4 全面上市之际，我们也一起来回顾一下过去几年所取得的进展。

在 Arm，芯片设计流程的一个关键阶段是 RTL 仿真。在此过程中，验证工程师采用以 Verilog 表达的设计，并使用如西门子的 Questa 高级仿真器或 Cadence 的 Xcelium 等 RTL 仿真器来展示设计的功能。通过定义特定输入时的预期输出，可以使用 RTL 仿真器来验证设计是否达到预期性能。这对于确保高质量的产品至关重要，但这一过程对算力资源的消耗极高。自 Graviton2 问世以来的数年中，我们逐步将仿真任务迁移到基于 Arm 架构的计算平台上，目前我们有超过半数的 RTL 仿真工作是在基于 AWS Graviton 的 Amazon EC2 实例上执行的。

Graviton2 能够提供优于 x86 架构的性能。该平台发布时，基于 Intel Xeon 的 M5 实例是当时 EC2 现有实例中最新式的类型。与 M5 相比，基于 Graviton2 的 M6g 实例性能提高了 20%，每个虚拟 CPU (vCPU) 的小时成本降低了 20%，相当于能以六成的成本达到相同的仿真结果。

在 Arm，我们的回归仿真通常在夜间运行，并包含大量的独立测试。对于这些测试来说，原始性能并非关键，它们更注重吞吐量，因此要启用 SMT 运行。我们的工程师也会在白天进行一些仿真，在这种情况下，则需要更快的周转时间。

接下来的 AWS Graviton3 采用了 Neoverse V1 核心，取决于具体的工作负载，其性能比 Graviton2 提高了 20% 至 30%。这使得 Graviton3 vCPU（一个 Neoverse V1 核心）的性能达到了与传统基于 x86 架构核心相当的水平。因此，我们考虑将 Graviton 用于对性能敏感的仿真工作中，这些工作在过往是需要使用禁用 SMT 的非 Graviton 实例。

现在，AWS Graviton4 已全面上线，将性能提升到了全新水平。Graviton4 采用了 Neoverse V2 核心，在我们的 EDA 工作负载上，性能比上一代产品提高了 20%。图 1 展示了我们将各代 Graviton 产品用于主要 RTL 仿真器所达到的性能水平。就单个 vCPU 而言，Graviton4 是经内存优化的 Amazon EC2 实例（R 实例系列）中速度最快的处理器，并具有很高的性价比。Arm 也因此在部分性能敏感型工作负载中开始使用 Graviton4。

图 1：使用西门子 Questa 高级仿真器时，各代 AWS Graviton 所达到的 RTL 仿真性能

Graviton4 的推出使得一系列新的 EDA 应用能够在 Arm 平台上运行，不仅为这些应用提供了基础支持，更成为各类 EDA 工作负载的理想平台。

每一代 Graviton 相较于上一代产品，性能和性价比都有显著提升。就每个 vCPU 而言，Graviton4 的速度几乎是 Graviton2 的两倍；与基于 Graviton 的前几代实例相比，Graviton4 可支持拥有多达三倍 vCPU 的实例，从而大幅提高了每个实例的最大容量。尽管性能有了显著提升，但与 Graviton3 相比，每小时费用仅增加了不到 10%。按吞吐量衡量，Graviton4 是极具性价比的 AWS 实例类型。

图 2：使用西门子 Questa 高级仿真器时，各代 AWS Graviton 的 RTL 仿真成本

AWS Graviton4 现已正式推出，驱动着 Amazon EC2 R8g 实例，并兼容前几代基于 Graviton 的实例版本。Arm 也将持续扩展基于 Graviton 实例的应用范围，以推动基于 Arm 架构的新一代处理器设计，并一如既往地实现出色的性能提升。

* 本文为 Arm 原创文章，转载请留言联系获得授权并注明出处。

作者：Tim Thornton
文章来源：Arm社区

推荐阅读

推荐阅读

目录