Winnie.shao@2020 · 2021年12月06日

AWS Graviton3:遵循摩尔定律又有自己节奏

1、Graviton3的设计与创新

亚马逊云科技在2018年re:Invent大会发布了Graviton1, 2019年发布Graviton2,因此几乎从去年开始,媒体和业界人士就预测今年要发Graviton3了。果然第一天CEO keynote 就公布了Graviton 3,550亿晶体管,比300亿晶体管的Graviton2 翻倍。去年Graviton2就已经作为半导体行业的优秀产品上了摩尔定律的追踪图,Graviton3这个表现也一定可以入选的。

image.png
不仅仅是晶体管数目,如下图,从2018年的Graviton第一代,到今年的Graviton 3,可以清楚的看到,一代一次显著性能的飞跃。

(注:下面红色字段为作者推测,非官方信息)

image.png

其实无论是用Chiplet设计,还是采用DDR5、PCIe Gen5、5nm工艺,先进归先进,但是阿里平头哥10月发布的的倚天710也都有,随后的Intel,AMD也都有,因此算是常规操作。不过Graviton系列的功耗,是显著低于前面说到的几个芯片的。以前,我一直没有想明白这个参数设计,直到看到Amazon C7g的服务器开盖图。这是在一个机箱内放了3个Graviton3,成为一个3节点的高密度服务器。换句话说,一个机箱内放入3个64核的服务器节点,如果换算成常规2路CPU,则相当于每个CPU是96核。如果Graviton2是常规的2路服务器设计,再考虑上主频的提升100Mhz,那么Graviton3的服务器是Graviton 2性能近2倍。这非常符合亚马逊云科技的本色,他们追求的是相同总功耗下的整服务器/整机架的性能最大提升,从芯片设计阶段,就通盘考虑过从服务器节点——到机架整体的合理功耗预算分配,而才能确定的设计方案。

最后一定要补上一句, 亚马逊云科技能做这样设计3节点服务器的另一个原因,是因为他们有能够支持多服务节点的Nitro卡,否则每个节点都需单独配网卡,会部分抵消高密度服务器设计的优势。
image.png

2、CPU做机器学习

Amazon Graviton 3的设计中,还有一点要特别画一个重点。它支持了bfloat16,并且提升了3倍的机器学习性能。Intel的cooper lake、AMD的Zen4、IBM Power10也都支持了bfloat16,而且都3倍、甚至20倍的提升了机器学习的性能。CPU阵营难得一见的齐心合力,打算增强自己的人工智能业务能力。
image.png

3、与Graviton3同步的C7g实例标志着arm服务器生态成熟

除了Graviton3 在芯片、服务器上的各种创新之外,还有一点和2019年Graviton2的发布不一样。与Graviton3同时发布的还有一个实例Amazon C7g,虽然还是预览版,但是相对于Graviton2发布3个月之后才发布实例,AmazonGraviton家族的实例研发节奏明显快了。相对于同行的仅仅芯片,尚无实例上线的时间的新闻发布,Graviton3不仅仅有芯片、有服务器,还有实例预览,甚至还有客户的背书,产品成熟度有明显优势。

和Graviton3翻倍的浮点性能,3倍的机器学习性能相呼应。Amazon C7g是一个定位于高性能工作负载的实例。亚马逊云科技推荐的应用,包括高性能计算、批处理、电子设计自动化(EDA)、媒体编码、科学建模和基于CPU的机器学习推理。这跟当年Graviton1支持的是 Web 服务器、容器化微服务、数据/日志处理和其它可以在更小的内核上运行的轻量级工作负载,不可同日而语了。

其实Amazon Graviton2 处理器已经在性能和功能上都实现了巨大的飞跃,成为ARM阵营的领头羊。它们为 Amazon EC2 通用型(M6g、M6gd、T4g)、计算优化型(C6g、C6gd、C6gn)和内存优化型(R6g、R6gd、X2gd)实例提供支持,工作负载类型相当广泛。本次大会上又发布的AmazonG5g,这是一个Graviton + Nvidia T4G的组合,还有两个配合最新的NitroSSD的存储优化实例Im4gn and Is4gen。最后要重点提一下,数据库的标杆产品SAPHANA也支持Graviton家族了,这不仅仅是Graviton家族的成功,更是ARM服务器生态的一大步。

其实从arm进入服务器市场开始,对于arm是否能撬动服务器生态持怀疑态度。从三大Linux,到Java OpenJDK、gcc/LLVM,到Ngnix、MySQL、Redis,arm在开源软件阵营获得了很好的支持。但是像SAP HANA这样的ISV(独立软件提供商)的支持,是Graviton家族开拓arm服务器生态的重要里程碑事件。

image.png

不仅仅是生态成熟,实例丰富。Graviton3再次提升了实际应用性能。在亚马逊云科技展示的F1应用测试中,Graviton3比Graviton2 快40%。对于Nginx,Graviton3有超60%的性能提升,其它应用,也至少有25%的性能提升。
image.png
image.png

 

小结

现在回头看当年3.5亿美金收购Annapurna lab真是回报超高。先是业界领先的Nitro系列,接着是Graviton arm CPU家族,再接着是机器学习两件套支持推理的inferentia和支持训练的Trainium。数据中心的三大芯片,DPU、CPU、AIxPU,整整齐齐。

亚马逊云科技的CEO在采访中谈到芯片创新的时候说,这是改变游戏规则的能力。Graviton产品家族验证了从借助arm CPU IP的敏捷芯片设计,到芯片和服务器联合设计,到快速部署上云的互联网速度。这是一个用创新推动高质量服务的时代。

作者:Winnie shao
原文:企业存储技术

推荐阅读

欢迎关注企业存储技术极术专栏
推荐阅读
关注数
5615
内容数
264
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息