Winnie.shao@2020 · 2021年12月16日

AWS Graviton 3:遵循摩尔定律又有自己节奏(修订版)

1、Graviton 3的设计与创新

亚马逊云科技在2018年re:Invent大会发布了Graviton1,2019年发布Graviton2,因此几乎从去年开始,媒体和业界人士就预测今年要发Graviton3了。果然第一天CEO keynote 就公布了Graviton 3,550亿晶体,比300亿晶体管等Graviton2 翻倍,去年Graviton2就已经作为半导体行业的优秀产品上了摩尔定律的追踪图,Graviton3这个表现也一定可以入选的。

image.png
 
不仅仅是晶体管数目,如下图,从2018年的Graviton第一代,到今年的Graviton 3,可以清楚的看到,一代一次显著性能的飞跃。

(红色字段为作者推测,非官方信息)

image.png

单看芯片本身,无论是用Chiplet设计(当然计算die和IO die分离的7个die设计还是很创新的), 还是采用DDR5,PCIe G5,TSMC N5工艺,先进归先进,但是阿里平头哥10月发布的的倚天710也都有,随后的Intel Sapphire Rapids,AMD Genoa也都有,因此算是常规操作。不过Graviton 3的功耗,是显著低于前面说到的几个芯片的。以前,我一直没有想明白这个参数设计,直到看到Amazon C7g的服务器开盖图。这是在一个机箱内放了3个Graviton 3,成为一个3节点的高密度服务器。换句话说,一个机箱内放入3个64核的服务器节点,如果换算成常规2路CPU,则相当于每个CPU是96核。这非常符合亚马逊云科技的本色,他们追求的是相同总功耗下的整服务器/整机架的性能最大提升,这是从芯片设计阶段就通盘考虑过从处理器,到服务器节点到机架整体的合理功耗预算的分配而才能确定的联合设计方案。

最后一定要补上一句, 亚马逊云科技能做这样设计3节点服务器设计的另一个关键因素是他们有能够支持多服务节点的Nitro卡,否则每个节点都需配独立网卡,会部分抵消高密度服务器设计的优势。

image.png

2、CPU做机器学习

Amazon Graviton 3的设计中,还有一个重点要画一下。它支持了bfloat16,并且提升了3倍的机器学习性能。Intel的cooper lake , AMD的Genoa,IBM Power10也都支持了bfloat16,而且都3倍,甚至20倍的提升了机器学习的性能。CPU阵营难得一见的齐心合力,打算增强自己的人工智能业务能力。

image.png

3、与Graviton3同步的EC2 C7g实例标志着arm服务器生态成熟

除了Graviton3 在芯片,服务器上的各种创新之外,还有一点和2019年Graviton2的发布不一样。与Graviton3同时发布的还有一个实例Amazon EC2 C7g,虽然还是预览版,但是相对于Graviton2发布3个月之后,才发布实例,Amazon Graviton家族的实例研发节奏明显快了。相对于同行的仅仅芯片,尚无实例上线时间的新闻发布,Graviton3不仅仅有芯片,有服务器,还有实例预览,甚至还有客户的背书,产品成熟度有明显优势。

Amazon EC2 C7g是一个定位于高性能工作负载的实例, C就是计算优化型的标志,g就是Graviton处理器的意思。亚马逊云科技推荐的应用,包括高性能计算、批处理、电子设计自动化(EDA)、媒体编码、科学建模和基于CPU的机器学习推理。这跟当年Graviton1 支持的是 Web 服务器、容器化微服务、数据/日志处理和其他可以在更小的内核上运行轻量级工作负载,不可同日而语了。

其实Amazon Graviton2 处理器及已经在性能和功能上都实现了巨大的飞跃,成为ARM阵营的领头羊。它们为 Amazon EC2 通用型(M6g、M6gd、T4g)、计算优化型(C6g、C6gd、C6gn)和内存优化型(R6g、R6gd、X2gd)实例提供支持,工作负载类型相当广泛。打开Amazon EC2浏览可购的实例类型(https://aws.amazon.com/cn/ec2/instance-types/?nc1=h_ls),带g的实例都排在前面,感觉是主推型号。本次大会上,还新发布的Amazon G5g,这是一个Graviton + NVIDIA T4G的组合,还有两个配合最新的Nitro SSD的存储优化实例Im4gn and Is4gen,至此EC2的全产品系列都有“g”实例了。

不仅仅是生态成熟,实例丰富。Graviton3再次提升了实际应用性能。在亚马逊云科技展示的F1应用测试中,Graviton3比Graviton2 快40%。对于Nginx,Graviton3有超60%的性能提升,其它应用,也至少有25%的性能提升。

image.png
image.png
4、SAP Hana支持Graviton家族,是ARM服务器生态的重要里程碑

其实从2011年 arm开始进入服务器市场的第一天,整个业界对于arm是否能搬迁服务器生态持怀疑态度。从三大Linux逐个宣布arm版本的GA release,到Java Open JDK,gcc/LLVM, 到Ngnix, MySQL,Redis,arm十年多的时间内,获得了开源软件阵营的全力支持。

在本次大会上,亚马逊云科技宣布数据库的标杆产品SAP Hana也支持Graviton家族了。像SAP Hana这样的ISV(independent software vendors) 的支持,是Graviton家族开拓arm服务器生态的重要里程碑事件。这不仅仅是Graviton家族的成功,更是ARM服务器生态的一大步。

image.png

结尾

今天回头看,当年3.5亿美金收购Annapurna lab真是回报超高。先是领先业界一步的Nitro系列,接着是Graviton arm CPU家族,再接着是机器学习两件套支持推理的inferentia和支持训练的Trainium。数据中心的三大芯片,DPU,CPU,AIxPU,整整齐齐。

亚马逊云科技的CEO在采访中谈到芯片创新的时候说,这是改变游戏规则的能力。Graviton产品家族验证了从借助arm CPU IP的敏捷芯片设计,到芯片和服务器联合设计获取最大的TCO回报,到快速部署上云的互联网速度,这是一个用创新推动高质量服务的时代。

作者:Winnie shao
原文:企业存储技术

推荐阅读

欢迎关注企业存储技术极术专栏
推荐阅读
关注数
5553
内容数
235
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息