算存互连：Chiplet 与 CXL

最近，业界首个以算网融合为核心的多元算力研究报告《算力经济时代·2023新型算力中心调研报告》出版，我们将对报告内容开启连载模式。

结合算力经济时代的算力基础设施发展，第三章主要探讨了以下话题：

☞ 算存互连：Chiplet 与 CXL

☞ 向上堆叠，翻越内存墙

☞ HBM 崛起：从 GPU 到 CPU

☞ 向下发展：基础层加持

☞ 标准化：Chiplet 与 UCIe

☞ UCIe 与异构算力

☞ Chiplet 的中国力量

“东数西存”是“东数西算”的基础、前奏还是子集？这牵涉到数据、存储与计算之间的关系。
数据在人口密集的东部产生，在地广人稀的西部存储，主要的难点是如何较低成本的完成数据传输。
计算需要频繁的访问数据，在跨地域的情况下，网络的带宽和时延就成为难以逾越的障碍。
与数据的传输和计算相比，存储不算耗能，但很占地。核心区域永远是稀缺资源，就像核心城市的核心地段不会用来建设超大规模数据中心，CPU 的核心区能留给存储器的硅片面积也是相当有限。
“东数西算”并非一日之功，超大规模数据中心与核心城市也是渐行渐远，而且不是越远越好。同理，围绕CPU 早已构筑了一套分层的存储体系，虽然从Cache到内存都是易失性的存储器 (Memory) ，但往往越是那些处于中间状态的数据，对访问时延的要求越高，也就需要离核心更近——如果真是需要长期保存的数据，距离远一些反倒无妨，访问频率很低的还可以“西存”嘛。
距离CPU核心最近的存储器，非基于SRAM的各级Cache(缓存)莫属。不过，既然都分级了，那还是有远近之分。在现代CPU中，L1和L2 Cache 已经属于核心的一部分，需要为占地面积发愁的，主要是L3 Cache。

SRAM的面积律

在IEDM 2019上，台积电展示了其引入EUV的5nm制程成果。当时业界便留意到一个问题：芯片的逻辑密度提高了1.84 倍，而SRAM 密度仅提高了 1.35倍。在ISSCC2020中，关于5nm SRAM的论文还展示了2011~2019 年SRAM面积的演进过程。在下图中可以很明显看出：
2017年之前，SRAM的面积缩减基本上与制程改进同步；

之后，SRAM面积的缩减近乎停滞，即使应用了EUV 技术，改善也不明显。
现在是2023年，制造工艺正在向3nm迈进。台积电公布其N3制程的SRAM单元面积为 0.0199 平方微米，相比N5制程的面积为 0.021平方微米，只缩小了5%。更要命的是，由于良率和成本问题，预计N3并不是台积电的主力工艺，客户们更关注第二代 3nm工艺N3E。而N3E的SRAM单元面积为0.021平方微米，和N5工艺完全相同。至于成本方面，据传N3 一片晶圆是2万美元，N5报价是1.6万美元，意味着N3的SRAM比N5贵 25%。
作为参考，Intel7制程(10nm) 的SRAM面积为0.0312平方微米，Intel 4 制程(7nm)的SRAM面积为0.024平方毫米，和台积电的N5、N3E工艺差不多。
半导体制造商们的报价是商业机密，但SRAM 越来越贵，密度也难再提高，终究是事实。于是，将SRAM 单独制造再次变为合理，且可以配合先进封装实现高带宽、低时延。（未完待续）

推荐阅读

E企研究院

目录