报告连载 | Arm 新升：NVIDIA Grace 与 AmpereOne - 极术社区

最近，业界首个以算网融合为核心的多元算力研究报告《算力经济时代·2023新型算力中心调研报告》出版，我们将对报告内容开启连载模式。

结合算力经济时代的算力基础设施发展，第二章主要探讨了以下话题：

☞ 多元算力：CPU + GPU

☞ 摩尔谢幕，Chiplet 当道

☞ Chiplet 与芯片布局

☞ Arm 新升：NVIDIA Grace 与 AmpereOne

☞网格架构的两类 Chiplet

Arm在过去十年中一直期望能够在服务器市场获得一席之地。亚马逊、高通、华为等企业都推出了基于Arm 指令集的服务器 CPU。随着亚马逊的 Graviton、Ampere Altra等系列产品逐渐在市场站稳了脚跟，Arm在服务器CPU市场渐入佳境。而且，随着异构计算的兴起，Arm 在高性能计算、AI/ML算力基础设施中的影响力正在扩大——或许，随着Neoverse V2 推出和英伟达加入战团，Arm 在服务器 CPU 领域有望从一个参与者变为领先者。

早在2021年，英伟达就对外介绍了基于 Arm Neoverse 架构的数据中心专属CPU —— NVIDIA Grace，拥有72个核心。Grace CPU超级芯片(Superchip) 则由两个Grace芯片组成，它们之间通过NVLink-C2C(Chip-2-Chip) 连接在一起，可以在单插座内提供144个核心，以及1TB LPDDR5X 内存。除了双 CPU 的组合，在GTC2022上，NVIDIA还宣称 Grace可以通过NVLink-C2C与Hopper GPU连接，组成Grace Hopper 超级芯片。

NVIDIA Grace 是基于ArmNeoverse V2 IP的第一款重磅产品。目前还没看到 NVIDIA Grace 晶体管规模的相关资料，不妨先参照两位“前辈”的数据。据推测基于Arm Neoverse V1 的 AWS Graviton 3是550亿晶体管，对应64核、8 通道DDR5内存；据推测基 Arm Neoverse N2的阿里云倚天710是600亿晶体管，对应128核、8 通道DDR5内存、96通道 PCIe 5.0。从 NVIDIA Grace Hopper 超级芯片的渲染图看，Grace 的芯片面积与 Hopper 近似，而已知后者为800亿晶体管，二者均基于台积电 N4制程节点。据此推测72核的 Grace 芯片的晶体管规模大于Graviton 3、倚天710 是合理的，也与 Grace 基于Neoverse V2(支持 Arm V9 指令集、SVE2)的情况相符。

Arm Neoverse V2 配套的互连方案是CMN-700，在NVIDIA Grace这里称作SCF(ScalableCoherency Fabric，可扩展一致性结构) 。英伟达宣称 Grace 的网格支持超过72个CPU核心的扩展—— 实际上，在英伟达白皮书的配图中可以数出来80个CPU 核心。每个核心1MB L2缓存，整个CPU有多达117MB L3 缓存(合每个核心 1.625MB) ，明显高于其他同属“旗舰级”的 Arm 处理器。

△ NVIDIA Grace CPU 的网格布局

NVIDIA SCF在芯片内的设备(如CPU核心、内存控制器、NVLink等系统 I/O控制器)之间提供3.2 TB/s 的分段带宽。网格的节点称为CSN(Cache Switch Nodes，缓存交换节点)，每个CSN通常要连接2个核心及2个 SCC(SCF Cache partitions，SCF 缓存分区)。但从示意图来看，位于网格角落的4个CSN 连接的

是2个核心和1个SCC，而位于中部两侧4个CSN连接的是1个核心和2个 SCC。整体而言，Grace 的网格内应该有80个核心和76个SCC，其中8个核心应该是出于良率等因素而屏蔽。而网格外围“缺失”的4个核心和8个 SCC 对应的位置被用于连接NVLink、NVLink-C2C、PCIe、LPDDR5X 内存控制器等。

NVIDIA Grace支持Arm的许多管理特性，譬如服务器基础系统架构(SBSA) 、服务器基础启动要求(SBBR) 、内存分区与监控(MPAM)、性能监控单元(PMU)等。通过Arm的内存分区和监控(Memory Partitioning and Monitoring，MPAM)功能，可以解决CPU 访问缓存过程中因为共享资源的竞争导致的性能下降问题。高优先级的任务可以优先占用L3缓存，或者根据虚拟机预先划分资源，实现业务之间的性能隔离。

△ NVIDIA Grace CPU 超级芯片

NVIDIA Grace作为已知的最新最强版本Arm架构核心(Neoverse V2)的实例，再加上其必将获得自家GPGPU的深厚实力加持，业界从一开始就给予了高度关注，期待其在超算、机器学习等领域的表现。在GTC2023上，人们终于看到了Grace的实物，其实际市场表现仍需要一段时间的等待。

△ GTC2023 演讲中展示的 Grace 超级芯片实物

作为Arm Neoverse V1的“后浪”，Neoverse V2的升级可以说是全方位的，包括基于Armv9-A 指令集、更高的性能和微架构能效，加上更多的核心数和更大的L3缓存，NVIDIA Grace CPU在Arm版图中高于 Graviton3，是可以预期的。

英伟达毕竟是Arm服务器CPU领域的新手，在这方面资深的Ampere Computing(安晟培半导体) 经过多代产品积累之后，在2023年5月中正式发布拥有192个单线程自研核的 AmpereOne 系列处理器，这个核心数量也创下了(主流)服务器CPU的新纪录。

AmpereOne采用台积电5nm制程，提供的Ampere(A1) 核数量覆盖136 ~ 192个的区间，每个核心配备2MB L2缓存，这一点与Neoverse V2(的上限)相当，达到Ampere Altra和Altra Max系列的两倍。系统级缓存(SLC)为64MB，分别是Altra和Altra Max系列的2~4倍，与AWS Graviton3持平。

其他如8通道DDR5内存和128个PCIe 5.0通道，都属于新一代服务器CPU 的正常水平。

由于每个核心相对不那么复杂，又采用了比较先进的制程，AmpereOne 系列的使用功耗在200 ~ 350瓦(W)之间，平均每核心不到2瓦。NVIDIA Grace CPU的功耗也不算高，超级芯片加上内存的TDP“才”500瓦，即单个(72 核的)Grace CPU在250瓦以内。

尽管从核心微架构到外部I/O都获得了全面的升级，但AmpereOne并没有取代Altra和Altra Max系列的任务，Altra Max系列继续提供128核与96 核，Altra系列覆盖 80 核及以下的需求。我们认为，这种布局也与网格架构的特性有关，我们接下来讨论这个话题。（未完待续）

报告连载 | Arm 新升：NVIDIA Grace 与 AmpereOne

推荐阅读

目录