持续遥遥领先，亚马逊云科技打造IaaS坚实底座

一直以来，亚马逊云科技都是云计算行业的风向标，也是遥遥领先的引领者，每年的re:Invent大会更是引起全行业的关注。就在不久前，re:Invent 2023顺利召开，会上不仅秉承了亚马逊云科技“客户第一”的理念，同时也发布了多款IaaS解决方案念，在性能、成本、安全方面进一步迭代。下面我们就来一起看看本次大会的众多亮点。

1 计算产品
1.1 Graviton4产品发布
每次re:Invent大会，最重磅信息的莫过于自研芯片。Graviton系列芯片从2018诞生以来，已经上线150种实例，云上200万片，交付给5万用户使用，并且得到Top 100大客户认可，采用ARM计算产品来降本增效；比如SAP：是Graviton大客户；

与 Graviton3 相比，96 个 Neoverse V2 内核、每个内核 2 MB 二级缓存和 12 个 DDR5-5600 通道共同作用，使 Graviton4 的数据库处理速度提高了 40%，Web 应用程序处理速度提高了 30%，大型 Java 应用程序处理速度提高了 45%。

本次大会特意强调DB、Java场景，之前我们评测过，确实是ARM重点场景，相对于Graviton在其他强项场景，这两个场景性能不够突出，这也是本次发布会额外强调的原因。

几代ARM产品主要参数如下

Graviton2

Graviton3

Graviton4

CPU主频

2.5

2.6

推测3.0

指令架构

v8.2/N1

8.4/V1

9.0/V2

制造工艺

7nm

推测5nm

（推测4nm）

上市实践

2019

2021

2023

Core数量

L1-3 Cache

64+64 /1M /32M

64+64 /1M/32M

64+64 /2M/推测32M

Memory

8*3200

8*4800

12*5600

基于ARM芯片的计算产品EC2 R8g，单CPU支持96core，整机192core

Graviton支撑了大量云产品，包括DB、大数据、容器、FaaS

1.2 Graviton4芯片架构
新的 Graviton4 内部有 96 个内核，基于 Arm 的 "Demeter" Neoverse V2 内核（基于 Armv9 架构），与拥有 64 个内核的 Graviton3 相比，内核数量增加了 50%。本次采用7个die的设计，12个DDR5 controller，分布在4个die上；2个PCIe5 die和CCIX NUMA互联die

超出预期的NUMA互连架构，ARM架构下CCIX实现并不是特别完善，时延也很大，但这一代Graviton竟然跨越了这一步。

为什么ARM服务器架构从过去的独立3 Socket架构，转向NUMA设计？

推测与定位分不开：大型数据库、SAP Hanna，以及Limitless Arura 数据库；当然这样对CCIX互连的时延要求很高期待有卓越的表现；

1.3 面向应用性能的自研芯片
关于性能设计，第一张图，是传统Benchmark，推测应该是SpecInt2017，这种程序为了标准化，易安装，一般程序比较小，循环执行，很难反映真实业务性能。Graviton CPU设计产品采用“Real workload”基准，进行优化CPU设计；

MySQL基准测试显示 R8g 与 R7g 相比有 40% 的优势，在8vCPU 上测试 Groovy/Grails 应用程序时也有45%以上收益。

据统计，目前由Amazon Graviton支持的Amazon EC2实例种类达150多个，已经构建的Amazon Graviton处理器数量超过200万个，并拥有超过5万客户，包括Datadog、DirecTV、Discovery、Formula 1 (F1)、NextRoll、Nielsen、Pinterest、SAP、Snowflake、Sprinklr、Stripe以及Zendesk等。例如SAP，在使用Amazon Graviton服务之后，成本降低了35%，且分析速度更快，同时减少了45%的碳排放量。

本次发布会，都在对比上一代ARM，一直没有横向对比x86的数据，大家可以基于Graviton3的性能来推测。

2021年发布Graviton3的时候，性能比Graviton2的提升幅度，也可以作为G2-3的参考

1.4 性能分析deep dive
Graviton3采用ARM V1架构，而Graviton4基于下一代V2架构，重点升级

L2 cache：1->2M

V1(Graviton3)

V2(Graviton4)

L2 Cache

1MB

2MB

SVE

SVE2x256b

SVE2 4x128b

ARM v9特性

8.4

MTE，PAN，PAC

翻了ARM产品的V2架构，主要提升的性能参数如下

V2架构在微处理器的前端、后端均进行了优化提升

ARM的物理核有天然优势，需要积累的是服务器端高性能负载下的算法，比如指令预测、乱序执行、随机访问数据场景下的Cache预取算法。V2相对于V1来说，SIR提升带来的收益13%，SLC miss降低10%，看来内存的访问消耗了大量性能。Mop fetch和HW Prefetch性能提升最明显；

1.4.1.1 Branch Predict/Fetch/ICache
Branch Target Buffer

10x larger nanoBTB
Split main BTB into two levels with 50% more entries

TAGE

2x larger tables with 2-way associativity
Longer history

Indirect branches

Dedicated predictor

Fetch bandwidth

Doubled instruction TLB and cache BW

Fetch Queue

Doubled from 16 to 32 entries

Fill Buffer

Increased size from 12 to 16 entries

uOp cache

Reduced size for efficiency

Hardware Prefetching +5.3% SPEC CPU® 2017 Integer1

Training

Refined filtering of transactions used for training

Accuracy

Apply Program Counter to L2 GSMS training

New PF engines

Global SMS-larger offsets than SMS
Sampling Indirect Prefetch-pointer dereference
TableWalk-Page Table Entries

Differentiated QoS

Lower QoS value for prefetches than demand for
reduced loaded latency

1.5 X86架构的EC2，仍然创新不断
X86发布两款产品：

首先是M7i-Intel SPR

CPU 96vcpu，两路192vCPU，集成了AI加速器

高达 3.2 GHz 第 4 代英特尔至强可扩展处理器（Sapphire Rapids 8488C）

新的高级矩阵扩展（AMX）可加速矩阵乘法运算

最新的 DDR5 内存，与 DDR4 相比，带宽更大

M7i-Flex架构：这一代产品核数是上一代的1.5倍，但是总IO性能相同，因此Flex作出让利

最大32vcpu，IO为12.5G网络/10GEBS

性价比提升19%，价格M6i降低5%，CPU性能提高15%

M7i产品规格

实例大小

vCPU

内存 (GiB)

实例存储 (GB)

网络带宽 (Gbps)

EBS 带宽（Gbps）

m7i.large

仅限 EBS

最高 12.5

最高 10

m7i.xlarge

仅限 EBS

最高 12.5

最高 10

m7i.2xlarge

仅限 EBS

最高 12.5

最高 10

m7i.4xlarge

仅限 EBS

最高 12.5

最高 10

m7i.8xlarge

128

仅限 EBS

12.5

m7i.12xlarge

192

仅限 EBS

18.75

m7i.16xlarge

256

仅限 EBS

m7i.24xlarge

384

仅限 EBS

37.5

m7i.48xlarge

192

768

仅限 EBS

m7i.metal-24xl

384

仅限 EBS

37.5

m7i.metal-48xl

192

768

仅限 EBS

m6i.32xlarge

128

512

仅限 EBS

M7i-Flex最大32core，IO可以共享，只承诺最高12.5G、10G

实例大小

vCPU

内存 (GiB)

实例存储 (GB)

网络带宽 (Gbps)

EBS 带宽（Gbps）

m7i-flex.large

仅限 EBS

最高 12.5

最高 10

m7i-flex.xlarge

仅限 EBS

最高 12.5

最高 10

m7i-flex.2xlarge

仅限 EBS

最高 12.5

最高 10

m7i-flex.4xlarge

仅限 EBS

最高 12.5

最高 10

m7i-flex.8xlarge

128

仅限 EBS

最高 12.5

最高 10

性价比优势；

SAP HANA、Oracle 或 SQL Server大型内存型数据库场景，需要超大内存的实例，推出了U7i产品。

U7i 最多支持 896 个 vCPU，是 AWS Cloud 中数量最多的 vCPU。它们提供高达 100Gbps 的 Elastic Block Storage (EBS)，是现有 U-1 实例 EBS 带宽的 2.5 倍以上，使客户能够更快地将数据加载到内存中并提高备份速度。U7i 实例支持 EBS io2 Block Express 卷，可在 Amazon EC2 上提供最佳 EBS 性能。U7i 实例可提供高达 100Gbps 的网络带宽并支持 ENA Express。U7i 实例非常适合使用任务关键型内存数据库（例如 SAP HANA、Oracle 或 SQL Server）的客户。

名称

逻辑处理器数*

内存 (GiB)

实例存储 (GB)

网络带宽（Gbps）

EBS 带宽 (Gbps)

u-3tb1 .56xlarge

224

3,072

仅限 EBS

u-6tb1 .56xlarge

224

6144

仅限 EBS

100

u-6tb1.112xlarge

448

6144

仅限 EBS

100

u-6tb1.metal**

448

6144

仅限 EBS

100

u-9tb1 .112xlarge

448

9216

仅限 EBS

100

u-9tb1.metal**

448

9216

仅限 EBS

100

u-12tb1 .112xlarge

448

12288

仅限 EBS

100

u-12tb1 .metal**

448

12288

仅限 EBS

100

u-18tb1 .112xlarge

448

18432

仅限 EBS

100

u-18tb1.metal

448

18432

仅限 EBS

100

u-24tb1 .112xlarge

448

24576

仅限 EBS

100

u-24tb1.metal

448

24576

仅限 EBS

100

第二款是M7a-AMD Genoa产品

与 M6a 实例相比，由第四代 AMD EPYC 处理器提供支持的 Amazon EC2 M7a 实例的性能可提升高达 50%。

主要特点：

睿频 3.7 GHz 的第 4 代 AMD EPYC 处理器（AMD EPYC 9R14）Genoa

整机50 Gbps 的网络带宽， 40 Gbps 的 Amazon Elastic Block Store（Amazon EBS）带宽

高达 192 个 vCPU 和 768 GiB 内存的实例

SAP 认证实例

支持采用 AMD 安全内存加密（SME）的全天候运行内存加密

支持新的处理器功能，例如 AVX3-512、VNNI 和 bfloat16。

全新解读：上一代Milan最大裸金属规格是192vcpu，这次为什么没进步？

AMD Genoa原本是96core，192ht的能力，为何没有推出384vcpu的产品？

答案是他们做了SMT off处理，直接给用户暴露物理核，大大缓解之前Milan时代内存不足、HT线性度差的问题；同时，M7a追求单vCPU带宽，以保证应用性能和时延最佳。

实例大小

vCPU

内存

GiB

网络

Gbps

EBS 带宽Gbps

m7a

.48xlarge

192

768

m7a

.metal-48xl

192

768

2 存储产品
存储产品EBS、S3思路是每年演进加大带宽，降低时延

首先，带宽每年提升速度30%左右，今年采用100G网络，50G给VPC，40G给EBS，剩余做管控。随着核密度上升（192->256/384），下一代预计会走向200G网络；

其次，存储时延非常重要，每年有新的加速产品发布给用户

在EBS上，采用EBS io2 express降低十倍时延；

在S3对象存储产品上，采用S3 express one zone降低10倍时延；

2.1 EBS
过去从用户角度看产品，今年终于可以从EBS存储服务器角度，看实现架构：

EC2--Nitro--srd--EBS服务器，服务器规模使用Graviton CPU，从经验来看ARM服务器做存储的IO、压缩、校验，能大幅度发挥物理核优势。

EBS io2 express，去年发布会第一次发布，今年有更多产品规格落地

相对于之前的io2，提供了4倍带宽、容量；

相对于io1，10倍低时延，100倍可靠性，高IO吞吐场景下降低成本50%。

Io2 express基于SRD协议，带宽大幅度提升，时延大幅度降低。近年来DCTCP、RDMA协议纷纷用到了数据中心内部，大幅度提高IaaS互连吞吐。

2.2 OSS
今年发布了一款新产品，名字有点长，Amazon S3 Express One Zone，为了解决前文讲的，就是一款对象存储的AZ内缓存加速器，其实叫S3 express比较好记。

S3典型时延10-200ms，对于ML、Bigdata、数据分析这些业务来说，计算需要等待数据准备好，计算集群消耗浪费等待时间，如何解决呢？S3 Express应运而生。

下图为方案架构：

下文有几个关键点：

计算服务器EC2与S3 Express同AZ

时延具备10倍速度，前文看到百毫秒级时延浪费大量时间，可以优化10倍Lantency；

推测采用SSD服务器集群，价格预计比HDD组成的S3贵10倍量级。

Amazon S3 Express One Zone 是一种高性能的单区 Amazon S3 存储类，专门用于为对延迟最敏感的应用程序提供一致的、个位数毫秒级的数据访问。S3 Express One Zone 是当今延迟最低的云对象存储类，数据访问速度比 S3 Standard 快 10 倍，请求成本比 S3 Standard 低 50%。应用程序可立即受益于请求完成速度快达一个数量级。S3 Express One Zone 提供与其他 S3 存储类类似的性能弹性。与亚马逊 S3 一样，无需提前规划或配置容量或吞吐量要求。可以根据需要扩大或缩小存储容量，并通过 Amazon S3 API 访问数据。S3 Express One Zone 是第一个 S3 存储类，可以选择单个可用区，并选择将对象存储与计算资源共置，从而提供尽可能高的访问速度。此外，为了进一步提高访问速度并支持每秒数十万次的请求，数据存储在一种新的存储桶类型中：Amazon S3 目录存储桶。无论键名或访问模式如何，每个目录桶都能支持每秒数十万次的事务处理 (TPS)。

3 网络技术
3.1 Nitro安全方案
机密计算对于政府业务、金融、多方交易非常重要，但是近些年普及速度并不好；Intel 退出SGX芯片安全方案，ARM有Trustzone方案，AMD也有自己的不同方案；对于用户来说，最好有一个统一方案。

Nitro Enclaves做到了这一点，将安全密钥等信息存储在统一的用户域之外的独立DPU空间，避免适配不同CPU而修改程序，这个比较巧妙的方案。可实现跨厂商、跨代兼容；后面还举出巴西银行区块链案例；

3.2 物理网络演进
今年通用计算网络与上一代100G平台相同；网络增强达到200G；AI网络单卡达到400Gbps；对于采用ARM CPU的Nitro平台，在AI场景下采用Jumbo实现带宽翻倍，还是比较容易；当然面对AI训练场景，还是需要NVLink这种480GB/s的柜内总线互连。

4 总结
随着开源软件越来越多进入企业生产业务，未来云计算不可替代性，需要芯片与软件结合，需要多产品矩阵结合，才能给客户创造差异化价值，提供安全、高性能、低成本的产品和服务。

从十年的产品演进节奏，可以看出亚马逊云坚持的产品战略：

成本控制：

Graviton自研芯片，降低60%功耗，让利给客户（过去定价低20%）

给客户尽可能降价（M7i-flex），同时减少自身成本（6-7代共用100G网络）；

性能第一：

AMD 处理器产品，M7a（Genoa）策略：释放物理核算力（提升50%），同时保证内存带宽（DDR5 4800，比上一代提升50%）。

Graviton策略：物理核，大容量Cache，最大内存带宽；同时选择V1，V2系列ARM架构，付出了密度降低一倍的代价（对比N系列），实现性能最优；

存储推出更大带宽，更低时延产品EBS Express，S3 Express

安全至上：

从Nitro加密付出网络加解密硬件开销代价、内存加密付出10%时延开销，仍然给客户提供最安全解决方案。

推出Nitro Enclaves，实现机密计算；

事实证明，亚马逊云科技可以为用户提供丰富的云应用选择，同时这些选择也是业界最先进、最高端的，这不仅提供了差异化的竞争力，也让用户可以第一时间调整自身业务，适应未来数字化的发展。

推荐阅读

目录