最近,业界首个以算网融合为核心的多元算力研究报告《算力经济时代·2023新型算力中心调研报告》出版,我们将对报告内容开启连载模式。
结合算力经济时代的算力基础设施发展,第三章主要探讨了以下话题:
☞ 报告连载 | 算存互连:Chiplet 与 CXL
☞ 报告连载 | 向上堆叠,翻越内存墙
☞ 报告连载 | HBM 崛起:从 GPU 到 CPU
☞ 报告连载 | 向下发展:基础层加持
☞ 报告连载 | 标准化:Chiplet 与 UCIe
☞ 报告连载 | UCIe 与异构算力
☞ 报告连载 | Chiplet 的中国力量
英特尔数据中心Max GPU系列引入了BaseTile的概念,姑且称之为基础芯片。相对于中介层的概念,我们也可以把基础芯片看做是基础层。基础层表面上看与硅中介层功能类似,都是承载计算核心、高速 I/O(如 HBM) ,但实际上功能要多得多。硅中介层的本质是利用成熟的半导体光刻、沉积等工艺(65nm 等级),在硅上形成超高密度的电气连接。而基础层更进一步:既然都要加工多层图案,为什么不把逻辑电路之类的也做进去呢?
△ 英特尔数据中心 Max GPU
Intel在ISSCC2022中展示了英特尔数据中心Max GPU的Chiplet(小芯片)架构,其中,基础芯片面积为640mm2,采用了Intel 7制程——这是目前Intel用于主流处理器的先进制程。为何在“基础”芯片上就需要使用先进制程呢?因为Intel将高速I/O的SerDes都集成在基础芯片中了,其作用有点儿类似AMD的IOD。这些高速IO包括HBM PHY、Xe Link PHY、PCIe 5.0,以及,这一节的重点:Cache。这些电路都比较适合5nm 以上的工艺制造,将它们与计算核心解耦后重新打包在一个制程之内是相当合理的选择。
△ 英特尔数据中心 Max GPU 的 Chiplet 架构
△ 英特尔数据中心Max GPU的基础芯片。注意,此图中的两组 Xe Link PHY应是笔误。芯片下方应为两个 HBM PHY 和一个Xe Link PHY
英特尔数据中心Max GPU系列通过Foveros封装技术在基础芯片上方叠加 8 颗计算芯片(Compute Tile)、4颗RAMBO芯片(RAMBO Tile)。计算芯片采用台积电N5工艺制造,每颗芯片都自有4MB L1 Cache。RAMBO是“Random Access Memory, Bandwidth Optimized”的缩写,即为带宽优化的随机访问存储器。独立的RAMBO芯片基于Intel 7制程,每颗有4个3.75MB的Bank,共15MB。每组4颗RAMBO共提供了60MB的L3 Cache。此外,在基础芯片中也有RAMBO,容量有144MB,外加L3 Cache 的交换网络(Switch Fabric)。
因此,在英特尔数据中心Max GPU中,基础芯片通过了Cache交换网络, 将基础层内的144MB Cache,与8颗计算芯片、4颗RAMBO芯片的 60MB Cache组织在一起,总共204MB L2/L3 Cache,整个封装是两组,就是408MB L2/L3 Cache。
英特尔数据中心Max GPU的每组处理单元都通过Xe Link Tile与另外7组进行连接。Xe Link芯片采用台积电N7工艺制造。
△ Xe HPC 的逻辑架构
△ Xe Link 的网状连接
前面已经提到,I/O芯片独立是大势所趋,共享Cache与I/O拉近也是趋势。英特尔数据中心Max GPU将Cache与各种高速I/O的 PHY集成在同一芯片内,正是前述趋势的集大成者。至于HBM、Xe Link芯片,以及同一封装内相邻的基础芯片,则通过EMIB(爆炸图中的橙色部分)连接在一起。
△ 英特尔数据中心Max GPU爆炸图
根据英特尔在 HotChips上公布的数据,英特尔数据中心Max GPU的L2 Cache总带宽可以达到13TB/s。考虑到封装了两组 基础芯片和计算芯片,我们给带宽打个对折,基础芯片和4颗RAMBO芯片的带宽是6.5TB/s,依旧远远超过了目前至强和EPYC的L2、L3 Cache的带宽。其实之前AMD已经通过了指甲盖大小的3D V-Cache证明了3D封装的性能,那就更不用说英特尔数据中心Max GPU的RAMBO及基础芯片的面积了。
△ 英特尔数据中心Max GPU的存储带宽
回顾一下3D V-Cache的弱点——“散热”不良,我们还发现将Cache集成到基础芯片当中还有一个优点:将高功耗的计算核心安排在整个封装的上层,更有利于散热。再往远一些看,在网格化的处理器架构中,L3 Cache 并非简单的若干个块(切片),而是分成数十甚至上百单元,分别挂在网格节点上的。基础芯片在垂直方向可以完全覆盖(或容纳)处理器芯片,其中的 SRAM 可以分成等量的单元与处理器的网格节点相连。
换句话说,对于网格化的处理器,将L3 Cache移出到基础芯片是有合理性的。目前已经成熟的3D封装技术的凸点间距在30~50微米的量级,足够胜任每平方毫米内数百至数千个连接的需要,可以满足当前网格节点带宽的需求。更高密度的连接当然也是可行的,10 微米甚至亚微米的技术正在推进当中,但优先的场景是HBM、3D NAND这种高度定制化的内部堆栈的混合键合,未必适合 Chiplet 对灵活性的要求。