E企研究院 · 2023年11月30日 · 北京市海淀区

2023 re:Invent:谈谈来自AWS自研芯片的冲击力

2023 re:Invent,现场接近6万人,全球几十万人通过线上看直播。

“Reinventing is in our DNA.”亚马逊云科技首席执行官Adam Selipsky在亚马逊科技全球峰会2023 re:Invent 主题分享中这样开场。

image.png
亚马逊云科技首席执行官Adam Selipsky

随后,Reinvent(重构)这个关键词贯穿了2个半小时的演讲,从云基础架构、存储到计算以及生成式AI,现场欢呼声不断。Adam Selipsky强调,亚马逊云科技在不断重构三个层级:最底层是训练和推理的基础设施层,中间层是所有的微调模型需求的工具服务,上层是构建生成式 AI 应用层。
image.png

在Adam Selipsky的诸多发布引来现场的欢呼声,Amazon S3 Express One Zone 为云对象存储性能树立了新标杆;Amazon Q 更是展示了强大的云基础设施的力量,而两款自研芯片的发布,则重新定义模型训练,AWS继续引领定制芯片时代。

image.png
Graviton 4:

实用性持续增长

在AWS展区,可以看到 从2018年开始AWS在自研芯片领域持续创新的足迹。

2018年Graviton 1 首次在A1实例中亮相时,完全专注于横向扩展性能。而在2019年, Graviton2 支持扩展到更通用的工作负载,例如 MySQL 数据库支持,当时推出M6g、M6gd、C6g、C6gd、R6g 和 R6gd 实例。

随着 2021年Graviton3 上市,芯片上部署的 R7g 实例能够支持一些机器学习 (ML) 和高性能计算 (HPC) 应用程序。2022年AWS推出Graviton 3E 处理器,用于 Hpc7g 和 C7gn 实例,矢量指令处理性能比 Graviton3 高出 35%。

image.png
AWS 如何扩展 Graviton 系列这对客户意味着什么?从亚马逊在2023 re:Invent 发布的Graviton 4可以看出。

image.png
Graviton4 封装上有 96 个 V2 核心,比 Graviton3 和 Graviton3E 提升了 50%,而且与 8 个 DDR5 内存控制器相比,Graviton4 上有 12 个 DDR5 控制器,并且使用的 DDR5 内存的速度Graviton4 的频率提升了 16.7%,达到 5.6 GHz。Graviton4 每个插槽的内存带宽为 536.7 GB/秒,比之前的 Graviton3 和 Graviton3E 处理器提供的 307.2 GB/秒高出 75%。
image.png

具有9个高性能核心,辅以大型二级缓存、丰富的内存容量(和带宽)以及大量快速 I/O,对于客户来说,AWS新一代Graviton4可以处理更大量的数据、更大规模的工作负载、更快的获得运行结果。

而另外一个功能是多插槽支持。借助 Graviton4,R8g 实例将支持单插槽和双插槽配置。双插槽配置对于工作负载支持意味着什么?在数据驱动时代,高性能数据库、内存缓存和大数据分析等工作负载这些都可运行,也就是说,现在开始,企业可以从基于 Graviton 的 AWS 实例运行前端应用程序和后端数据存储。基于Graviton4 的R8g实例相比当前一代R7g实例提供更大的实例大小,虚拟处理器(vCPU)以及内存均提升了3倍。最重要的是降低总拥有成本。

当然,性能是企业级计算的重要要素之一,但安全性也是如此。除了 V2 中内置的固有安全性之外,AWS 还在移动数据的系统接口中加入了加密功能。

Trainium2:

继续降低大型语言模型成本

在2023 re:Invent现场,当英伟达创始人兼CEO黄仁勋与亚马逊云科技首席执行官Adam Selipsky同台,宣布AWS将支持英伟达最新推出的H200 GPU,业界凭借两家公司合作是未来Gen AI落地的关键。

image.png
GPU 广泛用于训练人工智能模型,最先进的基础模型和大语言模型通常包含数千亿甚至数万亿个参数或变量,需要能够支持上万机器学习芯片进行扩展的可靠高性能计算能力。

image.png
AWS另一款自研芯片 Tranium,专门为机器学习定制。总体目标是减少训练人工智能模型所需的时间,以降低构建大型语言模型 (LLM) 的成本。

image.png
Trainium 2与第一代Trainium芯片相比,性能提升多达4倍,内存提升3倍,能源效率(每瓦性能)提升多达2倍。Amazon EC 2 Trn2实例采用最新的Trainium 2,一个单独实例包含16个Trainium加速芯片。Trainium2实例致力于为客户在新一代EC2 UltraClusters中扩展多达100,000个Trainium2加速芯片,并与Amazon Elastic Fabric Adapter(EFA)PB级网络互联,提供的算力高达65 exaflops,客户可按需获得超级计算级别的性能。有了这个级别的规模,客户可在数周而非数月就能训练完成一个具有3千亿参数的大语言模型。通过以显著降低的成本提供最高横向扩展的模型训练。

总结

无论是Graviton 4还是 Trainium 2,两款自研芯片不断给客户增强实用性与高价值。

image.png
亚马逊云科技销售和营销高级副总裁 Matt Garman

在谈到与Intel、NVIDIA 等合作伙伴开发的不同类型芯片与自研定制芯片的区别时,亚马逊云科技销售和营销高级副总裁 Matt Garman接受采访这样表示,生成式AI正激发全球企业和开发者的创新激情,着眼客户需求,AWS 提供可用的计算资源集群,通过不同类型芯片组合来配置云基础设施,客户有不同的方式来使用这些技术,这就是AWS的竞争力,通过数据安全性、模型多功能性以及管理与 GPU 、定制芯片来帮助客户应对挑战,带领客户决胜生成式人工智能的未来。

图片展示

除了两款自研芯片,文末继续给大家展示来自展区关于基础设施层的图片:

image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png

推荐阅读
关注数
5072
文章数
461
对数据中心、云计算、5G、AIoT 等科技领域的最新技术和应用的信息交流、新产品新技术的引导、技术创新与品牌打造,降低用户对新技术的接受成本
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息