E企研究院 · 2023年08月18日 · 山西

报告连载 | 摩尔谢幕,Chiplet 当道

光刻技术之外的创新重新唤起了业界对半导体未来发展速度的期 待,诸如More Moore(深度摩尔) 、More than Moore(超越摩尔) 等等,当然,也包括材料等创新,所谓 Beyond CMOS(新器件)。

回到 Chiplet,“过来人”可能会认为:在一个封装基板上放置若干核心并不是什么新鲜事,譬如英特尔(Intel)在消费级的 Pentium D、Pentium Extreme Edition(EE) 上就实现了“胶水双核”;再往前看,Pentium Pro 的处理器内核和 L2 Cache(缓存) 也是两颗独立的裸晶封装在一起——这是1995年的事情。

image219.png
确实,从制造角度而言,Chiplet 算不上创新,MCM(Multi-Chip Module)、SiP(System in Package)已经存在多年了。先进封装是提升芯片规模的基础,而 Chiplet 则是一种设计理念。Chiplet 要 做的是充分利用先进封装技术,实现芯片架构或系统架构的创新。创造Chiplet 这个概念,其实是向以往单一追求晶体管微缩、追求晶体管规模的发展方式告别,更强调以合理的方式、合理的成本实现目标。

过去的 MCM 更像是一种权宜之计,当晶体管微缩能力进一步提升后, 出于性能和成本的考虑,曾经分立的器件会再度被整合到一片裸晶之内, 前面提到的 Pentium Pro、Pentium D 的形态,在之后十年并未复现。而现在的 Chiplet,则是一条明确的长期演进路线,多芯粒的组合将是常态。

Chiplet 之路不会反复的原因主要有:

1、高性能、高并发的需求使得数据中心、超算等领域对增加核心规模和数量的需求非常迫切,不论光刻工艺如何精进,顶级供应商都会倾向于将晶体管数量和裸晶面积堆砌到工程上难以负荷的程度。通过微缩减少裸晶面积、降低单位成本,并不是高性能产品主要的考虑方向。

2、28nm 制造工艺之后,微缩已经无法降低单位晶体管的生产成本。另外,不同特点的器件在微缩中的收益也并不相同。譬如

a) I/O 部分适用于较成熟的工艺;

b) 运算器件可以明显受益于先进工艺;

c) 存储器件介于上述二者之间,且主流存储器本质上是电容,即便使用先进工艺,也不能获得如逻辑器件那样显著的面积缩小效果。

而高性能处理器对存储带宽及容量、I/O 带宽及数量的要求也越来越高,SRAM、存储控制器、I/O 控制器及 PHY(物理层)所占用的晶体管数量、面积已经大到不可忽视的程度。

3、Chiplet 的芯粒可以应用到多款产品上,增加了产品开发的灵活性。譬如 AMD 的 CCD 和 IOD 可以按需组合,同代的消费级(Ryzen)和服务器 CPU(EPYC) 可以使用相同的 CCD,但数量不同,并搭配不同规模的 IOD。随着业界对先进封装的应用越来越熟练,芯粒正在进一步细分,如GPU、内存控制器、PHY 等单元都有独立出来的实例,一块芯片内封装十颗以上的芯粒将是常事。进一步的,IP开发者可以不仅仅是向芯片设计者出售授权,而是可以将受欢迎的IP核“硬化”为芯粒,并将这些芯粒直接提供给封装环节。

4、芯粒的标准化集成也促进了标准化接口的产生。早期的 Chiplet是芯片所有者的“家务事”,其使用自有接口、自有总线,捆绑特定晶圆厂、封装厂进行生产。但随着第三方 IP 的硬化和集成越来越多,芯粒之间 I/O 的标准化就成为必选项。

简而言之,芯粒的“通用化”和接口的“标准化”赋予Chiplet 旺盛的生命力, Chiplet 不仅仅是顶级企业、顶级产品的专属,而会出现在广泛的产品当中。未来芯片的基板就如同过去的主板一般,将承载多种不同的芯粒。

四等分:形似神不似

在《2021 中国云数据中心考察报告》的第二章“多元算力”篇,提 到了代号 Naples(那不勒斯)的 AMD 第一代 EPYC 处理器,与代 号 Sapphire Rapids(SPR)的第四代英特尔至强(Xeon) 可扩展处理器,在四等分这个视角上的相似性。随着第四代英特尔至强处理器在2023 年1 月中旬正式发布,架构细节逐渐公开,下面简单比较一下异同。

第一代EPYC处理器采用14nm制程,由4个 CCD(Core Complex Die, 核心复合体)组成,CCD的中间是8个CPU 核心及其缓存(Cache),I/O分布在外围,包括双通道 DDR 内存控制器、用于晶片间互联的IFOP(Infinity Fabric On-Package)、PCIe 控制器或用于 CPU 之间互连的IFIS(Infinity Fabric Inter-Socket)。

这4个CCD理论上是一样的,可以视为同一款(SKU)。在布局上,其中的半数要水平旋转180°,以保证4个CCD上的8个DDR 内存控制器“一致对外”,满足内存插槽物理布局的需要。代价是 PCIe 控制器或 IFIS 的走线不好布置,需要借助分层来避免交叉。

AMD 将上述架构命名为多芯片模块(Multi-Chip Module,MCM),同样由4个die(晶片) 对等拼接而成的第四代英特尔至强可扩展处理器就已经或主动或被动的归类为Chiplet 了。这当然主要归因于历史的进程,但也有微小的“个体努力”造成 的差异。

image222.png
△ 第一代 EPYC处理器用1种die满足了4 die组合的需求,代价是布线难度加大,各die也会空置一个 IFOP

image226.jpg
△ 第四代英特尔至强可扩展处理器的 Chiplet 实现 △ 第四代英特尔至强可扩展处理器的 Chiplet 实现

第四代英特尔至强可扩展处理器采用10nm级别的Intel 7制程,分MCC和 XCC两大构型,后者才是Chiplet 版本:由4个die拼接而成,最多可达56 ~ 60核心。这4个die也排列为 2×2 的矩阵,但与第一代EPYC 处理器的不同之处在于,XCC 构型的第四代至强可扩展处理器由2种互为镜像的晶片构成,在对角线上的2个是同一款(SKU) 。

推荐阅读
关注数
5070
文章数
454
对数据中心、云计算、5G、AIoT 等科技领域的最新技术和应用的信息交流、新产品新技术的引导、技术创新与品牌打造,降低用户对新技术的接受成本
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息