麦斯科技 · 2021年12月12日

Amazon Graviton 3第一款PCIe 5.0和DDR5服务器CPU

https://semianalysis.com/amazon-graviton-3-uses-chiplets-advanced-packaging-to-commoditize-high-performance-cpus-the-first-pcie-5-0-and-ddr5-server-cpu/
Dylan Patel 20121年12月2日

亚马逊通过其AWS平台不断打破所有规范。硬件亚马逊已经打破了所有规范不断与他们的AWS平台。硬件之旅始于2015年对Annapurna实验室的收购。今天亚马逊发布了Graviron3和一个定制的SSD控制器。第一次令人印象深刻的in-housing努力是在AWS Nitro。Nitro扩展了自定义虚拟机监控程序、安全芯片和功能强大的Nitro网卡。亚马逊领先于商业芯片供应商的所有SmartNIC和DPU,并设计/实现了自己的定制硬件堆栈。这些NIC允许将虚拟机监控程序和应用程序层分离,从而提供了巨大的安全性和操作效率优势。

屏幕截图 2021-12-12 215437.png

亚马逊可以将AWS管理堆栈offload到他们的定制网卡上,而不必在每个物理CPU上专用CPU内核来运行AWS管理堆栈。这释放了更多的内核,每个物理服务器可以直接租给消费者。亚马逊能够将这一点作为与其他云服务提供商相比的运营优势,并与英特尔等公司保持距离。谷歌只是开始在他们的云服务栈中标准化这种行为。谷歌与英特尔合作开发了一款名为Mount Evans的NIC,现在才启用类似亚马逊弹性块存储(Elastic Block Storage)的功能。

屏幕截图 2021-12-12 215505.png

扩展存储的操作优势非常大。不必在每台服务器中构建存储,存储可以在单独的存储专用服务器中实现。然后,可以在运行时将此存储虚拟地分配给各个实例并将其调配到各个实例。客户端在功能上不知道它们的存储在单独的服务器中,AWS可以更有效地利用所有存储。AWS还可以为各种实例类型的存储大小提供更大的灵活性。没有为每个物理服务器提供过多的存储,而且可以更轻松地在大型专用池中进行管理。这里的配置选择更加详细和多样,但这是另一件事情。

这让我们来到今天的公告,亚马逊宣布了一款定制SSD控制器和Graviton3 CPU。只是因为我们喜欢开玩笑,我们将首先触摸自定义SSD控制器。亚马逊通过使用定制SSD控制器,在性能变化和成本方面获得了巨大的好处。成本是显而易见的;他们现在购买原始NAND并将其与控制器打包在一起。AWS保持对自身供应链的控制,不屈服于高度可变的控制器生态系统。SSD OEM利润现在是内部的。AWS还可以跨其数据中心标准化控制器和性能特征。

屏幕截图 2021-12-12 215535.png

SSD的控制器将数据映射到NAND芯片上的物理地址。这种抽象称为flash转换层(FTL)。SSD控制器需要管理SSD的垃圾收集、trim和wear leveling,以保持最高性能和最长使用寿命。其中一些任务会影响性能。亚马逊通过将这种管理抽象为他们可以控制和更新的软件,自己掌握了这一点。提高的控制级别允许Amazon减少性能变化。这些管理功能将不再影响客户的高性能存储需求。它们可以在后台无缝运行,而不会干扰客户的工作负载。

屏幕截图 2021-12-12 215556.png

Graviton3 当然是这场演出的明星。Amazon作为服务器CPU端的第一代多功能技术突飞猛进。他们使用7个不同模具的芯片设计。最突出的是,它们使用高级包装进行包装。连接每个芯片的uBump的大小小于55um,而Intel和AMD的每个CPU的大小仍然大于100um。英特尔和AMD只能赶上他们的下一代CPU。这使得IO可以从CPU中分离出来,而不增加电源预算。AMD IO Dies Rome 和 Milan server CPUs占用高达100W。这100W消耗了内核的功率预算,不能用于计算。Graviton实现了比AMD Milan和PCIe 5.0连接高50%的内存带宽,同时将整个CPU功耗保持在相同的~100W范围内。

屏幕截图 2021-12-12 215619.png

64核保留在前沿工艺节点上的单个monolithic die上,而PCIe 5.0和DDR5的分片则分别制作。这种系统设计是亚马逊能够在Intel或AMD之前6个月部署PCIe 5.0和DDR5的部分原因。亚马逊正在通过利用ARM的库存核心和Synopsys/Cadence IP来降低IP方面的成本。虽然Amazon没有明确说明核心类型,但SemiAnalysis可以确认Amazon使用的是Arm的Neoverse V1核心。

屏幕截图 2021-12-12 215636.png

这个核心的选择非常有趣。大多数其他超刻度仪都在等待Neoverse N2,Neoverse N1的后续版本。Neoverse N1是地心引力2和安培Altra中显示的核心。V1之前只在欧洲、韩国和印度国内的HPC项目中获得了胜利,因此亚马逊在这里的核心选择非常有趣。与N1和N2相比,V1宽得多。它提供了两倍的FP执行单元,但这是以更高的面积为代价的。核心的变化导致2017年SPECint和2017年SPECfp的绩效分别增长了25%和60%。尽管拥有与Gravion2基本相同的电源和时钟,但性能和IO变化仍有巨大的提高。晶体管计数仅从30B增加到50B。

屏幕截图 2021-12-12 215650.png

亚马逊正在采取一种全面的系统级方法,因此他们专注于计算密度。亚马逊正在转向相反的方向,而不是像AMD和Intel这样耗电数百瓦的大型软件包。他们将3个CPU装入一个风冷服务器单元中。英特尔和AMD下一代CPU的功率接近350W-400W,亚马逊的目标是这个数字的1/3到1/4。Amazon正在最大限度地提高机架级别的性能,并将成本降至最低。这可以通过两种方式实现。

随着我们进入400G和800G时代,网络成本在服务器成本中所占的比例不断膨胀。每个CPU运行单个网卡的成本过高。商业芯片通常运行在1个CPU上,偶尔每个NIC运行2个CPU。Graviton3的比率翻转为每个NIC 3个CPU从机。

屏幕截图 2021-12-12 215707.png

亚马逊还做出了明智的决定,将这些处理器打包为BGA。商业芯片供应商,如AMD和Intel使用sockets。这一决定增加了复杂性和成本,增加了另一个故障点,并且降低了CPU到主板的连接密度,这需要更多的主板空间。销售服务器CPU几乎需要sockets,但Amazon可以避免这种情况,因为它们是垂直集成的。BGA是Amazon为什么可以为每个服务器单元推送3个CPU的一个关键原因。

这些CPU已经在生产中广泛部署。亚马逊已经使用它们很长一段时间了,他们的一些大客户,如Epic Games、F1、Twitter和Honeycomb ,也已经在生产中部署了它们。Graviton3的吸引力巨大,成本/美元优势不仅仅局限于垂直集成。支持Graviton3的系统级选择使它成为通用CPU计算实例的赢家。

屏幕截图 2021-12-12 215726.png

虽然x86CPU供应商将保持其每CPU领先优势的峰值性能,但英特尔和AMD忽略了更重要的战斗。这场战争是关于通用CPU在服务器和机架级别上每单位计算的总拥有成本(TCO)。CPU市场正在商品化,即使Intel和AMD的单核设计明显更好,也不会改变这个等式。英特尔和AMD过分关注某些方面,这使得他们错过了系统级设计中的关键因素,如峰值功率过高、密度过低以及时钟速度过快。

Graviton3应该会让英特尔和AMD高管感到震惊。事实上,所有的商业硅供应商都应该感到害怕,因为微软、Facebook、谷歌和中国的主要玩家都想在网络、CPU、SSD、人工智能推理和人工智能培训等领域复制这种垂直整合。这一篮子超规模公司的增长速度远远快于市场的其他部分,他们正在像一头机灵的野兽一样吞下花在计算上的钱。技术垄断正在向垂直方向发展,而且似乎没有采取多少措施来阻止这场长期的海啸。

我们有一些非常有趣的关于paywall 背后的packaging ,与这个CPU和某个半导体公司有关,这一直在投资者的脑海中。

https://semianalysis.substack.com/p/amazon-graviton-3-uses-chiplets-and

推荐阅读
关注数
5845
内容数
525
定期发布Arm相关软件信息,微信公众号 ArmSWDevs,欢迎关注~
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息