作者:Arm 工程部设计服务总监 Tim Thornton
自 2019 年基于 Arm Neoverse N1 核心的 AWS Graviton2 推出以来,Arm 携手合作伙伴持续提升基于 Arm 架构的设计性能。如今,AWS Graviton 处理器已发展到了第四代,在 AWS Graviton4 全面上市之际,我们也一起来回顾一下过去几年所取得的进展。
在 Arm,芯片设计流程的一个关键阶段是 RTL 仿真。在此过程中,验证工程师采用以 Verilog 表达的设计,并使用如西门子的 Questa 高级仿真器或 Cadence 的 Xcelium 等 RTL 仿真器来展示设计的功能。通过定义特定输入时的预期输出,可以使用 RTL 仿真器来验证设计是否达到预期性能。这对于确保高质量的产品至关重要,但这一过程对算力资源的消耗极高。自 Graviton2 问世以来的数年中,我们逐步将仿真任务迁移到基于 Arm 架构的计算平台上,目前我们有超过半数的 RTL 仿真工作是在基于 AWS Graviton 的 Amazon EC2 实例上执行的。
Graviton2 能够提供优于 x86 架构的性能。该平台发布时,基于 Intel Xeon 的 M5 实例是当时 EC2 现有实例中最新式的类型。与 M5 相比,基于 Graviton2 的 M6g 实例性能提高了 20%,每个虚拟 CPU (vCPU) 的小时成本降低了 20%,相当于能以六成的成本达到相同的仿真结果。
在 Arm,我们的回归仿真通常在夜间运行,并包含大量的独立测试。对于这些测试来说,原始性能并非关键,它们更注重吞吐量,因此要启用 SMT 运行。我们的工程师也会在白天进行一些仿真,在这种情况下,则需要更快的周转时间。
接下来的 AWS Graviton3 采用了 Neoverse V1 核心,取决于具体的工作负载,其性能比 Graviton2 提高了 20% 至 30%。这使得 Graviton3 vCPU(一个 Neoverse V1 核心)的性能达到了与传统基于 x86 架构核心相当的水平。因此,我们考虑将 Graviton 用于对性能敏感的仿真工作中,这些工作在过往是需要使用禁用 SMT 的非 Graviton 实例。
现在,AWS Graviton4 已全面上线,将性能提升到了全新水平。Graviton4 采用了 Neoverse V2 核心,在我们的 EDA 工作负载上,性能比上一代产品提高了 20%。图 1 展示了我们将各代 Graviton 产品用于主要 RTL 仿真器所达到的性能水平。就单个 vCPU 而言,Graviton4 是经内存优化的 Amazon EC2 实例(R 实例系列)中速度最快的处理器,并具有很高的性价比。Arm 也因此在部分性能敏感型工作负载中开始使用 Graviton4。
图 1:使用西门子 Questa 高级仿真器时,各代 AWS Graviton 所达到的 RTL 仿真性能
Graviton4 的推出使得一系列新的 EDA 应用能够在 Arm 平台上运行,不仅为这些应用提供了基础支持,更成为各类 EDA 工作负载的理想平台。
每一代 Graviton 相较于上一代产品,性能和性价比都有显著提升。就每个 vCPU 而言,Graviton4 的速度几乎是 Graviton2 的两倍;与基于 Graviton 的前几代实例相比,Graviton4 可支持拥有多达三倍 vCPU 的实例,从而大幅提高了每个实例的最大容量。尽管性能有了显著提升,但与 Graviton3 相比,每小时费用仅增加了不到 10%。按吞吐量衡量,Graviton4 是极具性价比的 AWS 实例类型。
图 2:使用西门子 Questa 高级仿真器时,各代 AWS Graviton 的 RTL 仿真成本
AWS Graviton4 现已正式推出,驱动着 Amazon EC2 R8g 实例,并兼容前几代基于 Graviton 的实例版本。Arm 也将持续扩展基于 Graviton 实例的应用范围,以推动基于 Arm 架构的新一代处理器设计,并一如既往地实现出色的性能提升。
* 本文为 Arm 原创文章,转载请留言联系获得授权并注明出处。
作者:Tim Thornton
文章来源:Arm社区
推荐阅读