半导体行业观察 · 2022年05月16日

越来越热的CXL

二十年前,英特尔公布了取代PCI总线的第三代I/O技术(3GIO技术),也就是我们现在常说的PCI-e(PCI Express)。凭借高性能、高扩展性、高可靠性及出色的兼容性,PCI-e几乎取代了以往所有的内部总线(包括AGP和PCI),成为当时众望所归的未来技术标准。

二十年后,在如今这个数据爆炸式增长,异构计算大行其道的当下,曾经的“未来之星“PCI-e 已经开始出现后继无力的现象,无法成为 CPU、GPU、FPGA 以及其他 AI 计算设备之间沟通的最佳语言。为了达到最佳的计算效果,不同的计算设备亟需“一种新语言”。

而这一次,英特尔推出的CXL技术标准似乎杀出了重围。

CXL是什么

CXL全称为Compute Express Link,是由英特尔于2019年3月在InterconnectDay 2019上推出的一种开放性互联协议,能够让CPU与GPU、FPGA或其他加速器之间实现高速高效的互联,从而满足高性能异构计算的要求。

图片来源:英特尔

目前来看,CXL 支持三种协议,分别是,类似于 PCIe 的 CXL.io - CXL 使用 PCIe 总线的物理层,CXL.memory 用于主机内存访问,CXL.cache 用于一致的主机缓存访问。

此外,CXL 联盟也已经确定可从CXL中受益的三类主要设备:

类型 1(CXL.io 和CXL.cache):没有本地内存的专用加速器(例如智能NIC),但可以利用 CXL.io 协议和 CXL.cache 与主机处理器的 DDR 内存进行通信。

类型 2(CXL.io、CXL.cache 和 CXL.mem):具有高性能GDDR或HBM本地内存的通用加速器(GPU、ASIC或FPGA )。

类型 3(CXL.io 和 CXL.mem):内存扩展板和存储级内存。设备为主机 CPU 提供对本地 DRAM 或非易失性存储的低延迟访问。

图片来源:英特尔

最初,英特尔创建CXL标准,是作为 CPU 与 GPU、FPGA等加速器之间的互联通信,从而取代数据中心环境中的PCI-e。一直以来,CPU 都是透过主板上的 PCIe 插槽及 PCIe 协议与加速器沟通,但显然其内存使用效率、延迟和数据吞吐量已经不能满足日益增长的数据和计算速度需要。

相比PCIe,CXL标准在接口规格上可兼容PCIe5.0,也就是说未来服务器 CPU 仍是置于主板 CPUSocket,GPU等加速器也是插在 PCIe 插槽上,但CPU 与 GPU 并非以 PCIe 协议进行沟通,而是采用新的 CXL 协议,可以理解为PCIe 5.0 纯粹是用来提供实体插槽。

此外,CXL最高带宽可达128GB/s几乎能够满足当时所有的数据传输需求,可以在更大程度上允许更高的带宽,更多的连接设备和更低的延迟,解决目前 PCIe 协议存在的 CPU 与加速器之间高延迟、带宽不足等问题,而又不排除PCIe的简单性和适应性。

正因为CXL构建与 PCI-e 逻辑和物理层级之上,所以其兼容性很高,更容易被现有支持 PCI-e 端口的处理器(绝大部分的通用 CPU、GPU 和 FPGA)所接纳,因此,英特尔将CXL视为在PCIe物理层之上运行的一种可选协议,也就是说PCI-e 的互联协议没有被完全抛弃,并且英特尔还计划在第六代 PCI-e 标准上大力推进 CXL 的采用。

除了兼容性很高之外,CXL标准还有另一个较大优势就是内存一致性。

从本质上讲,CXL可在CPU,以及GPU、FPGA等之间建立高速且低延迟的互连,维护 CPU 内存空间和连接设备上的内存之间的内存一致性,允许 CPU 与 GPU 之间绕过 PCIe协议,用 CXL 协议来共享、互取对方的内存资源。透过 CXL协议, CPU 与 GPU 之间形同连成单一个庞大的堆栈内存池,CPU Cache 和 GPU HBM2 内存犹如放在一起,有效降低两者之间的延迟,故此能大幅提升数据运算效率。

除了资源共享(内存池)和交换之外,CXL 还可以通过连接 CXL 的设备向CPU 主机处理器添加更多内存。当与持久内存配对时,低延迟 CXL 链路允许 CPU 主机将此额外内存与 DRAM 内存结合使用。

由于大内存容量决定了大容量工作负载的性能,从这方面看,CXL 的优势显而易见。

CXL与Gen-Z之战

就像开头所提到的,不同的计算设备亟需“一种新语言”,那么自然不会只有一个CXL出现,事实上,CXL可以说是最晚出现的一个标准,在它之前,还有IBM 的 CAPI 和 OpenCAPI、英伟达的 NVLink 和 NVSwitch、AMD的 Infinity Fabric、赛灵思的CCIX ,以及在这部分要说到的Gen-Z。

Gen-Z可以看成是CXL的先行者,源于 HPE 开发的 The Machine,是一种以内存为中心的新型计算机架构。Gen-Z 联盟成立于 2016 年,由HPE 和戴尔提供支持。具体来说,Gen-Z协议允许分配和释放资源,无论是内存、加速器还是网络,可用于创建该资源与一个或多个 CPU 节点的临时或永久绑定。本质上,这个想法是把任何类型的存储都作为内存看待,允许软件使用低延迟,高效率操作来访问。

使用 Gen-Z 和 CXL 进行分解。资料来源:IntelliProp

在过去,Gen-Z和CXL都属于数据中心、HPC、AI等领域全新数据设备互联协议的领导者,分割着数据中心的互连和内部连接,但后来却“节节败退”。先是在2020年4月,Gen-Z联盟与CXL联盟达成合作备忘录,强调了两者之间的合作共赢,CXL专注于机架内CPU、GPU和加速器之间的互联,而Gen-Z负责支持机架之间的互联。在和平休战一年多后,2021年11月,Gen-Z联盟与CXL联盟正式发布公告,把所有Gen-Z规范和资产转移给CXL联盟,双方联盟成员将专注于CXL这唯一的互联标准。至此,CXL也确立了自己的领先地位,将成为未来唯一的行业标准。

在这场互联标准争夺战中,CXL凭什么可以“吞并”Gen-Z?

这就不得不说到两大联盟的参与者,Gen-Z联盟的参与者包括了AMD、Arm、惠普企业(HPE)、IBM、美光、三星、SK海力士、希捷、西部数据等20个厂商,虽然都是大厂,但是最重要的服务器 CPU 供应商却只有IBM。而CXL联盟那边不仅聚集了内存厂商、IP厂商、加速器厂商等,更重要的是,它有AMD、ARM 、IBM 以及英特尔所有四个主要的 CPU 供应商的加入。任何用于处理器与 DRAM、FPGA以及其他专用处理器互连的后 PCIe 总线技术都必须得到服务器 CPU 供应商的支持,这是一个必要条件。光从这点,Gen-Z联盟就注定难以与CXL联盟抗衡。

而另一方面,CXL较晚的推出时间反而成为了它的“利器”。随着PCI-Express 摆脱了 3.0 和 4.0 代之间七年的停滞状态,并进入两年带宽翻倍的性能节奏,这给基于PCI-Express 协议的CXL带来了更大的优势。相比CXL,Gen-Z等其他协议充其量只能降级为 CPU 到 CPU 互连,而CXL 作为兼容的 CPU 一致性协议,将允许跨 CPU 架构的标准,可以说CXL 在 PCI-Express 5.0 上的性能就是为此而存在的。

紧锣密鼓的布局

自从去年成功“吞并”Gen-Z后,CXL的崛起势头可以说是越发强劲,Marvell、三星、Rambus、澜起科技等大厂们的布局速度日渐加快,尤其在进入5月份后,“落子”速度变得更加密集。

·美满电子收购 CXL 开发商 Tanzanite

美满电子正在进行以数据中心为重点的投资(包括其 CXL 解决方案)来扩大潜在市场,5 月 9 日,美满电子宣布将收购先进 CXL技术领先开发商Tanzanite,加速实现完全可组合的云基础架构的愿景。

Marvell存储业务事业部执行副总裁Dan Christman表示:“我们相信 CXL 将成为实现下一代数据中心最佳资源利用的重大变革者,而收购 Tanzanite 将提高我们解决客户最具挑战性问题的能力。“

据了解,未来的云数据中心将建立在利用 CXL 技术的完全分解式架构上,基于连接处理器、加速器和内存的行业标准 CXL 的硅组件将促进具有显着性能和效率优势的新云数据中心架构。

·Rambus收购哈登,加强CXL互连计划

5月5日,行业领先芯片和硅 IP 提供商Rambus宣布已签署收购Hardent, Inc. 的协议,该交易预计将于 2022 年第二季度完成。

Rambus官方消息显示,Hardent 拥有 20 年的半导体经验,其世界一流的硅设计、验证、压缩和纠错码 (ECC) 专业知识为 Rambus CXL 内存互连计划提供了关键资源,此次收购加速了下一代数据中心的CXL 处理解决方案的开发。

Rambus总裁兼首席执行官Luc Seraphin 表示:“在 AI/ML 等高级工作负载的需求以及向分类数据中心架构的转变的推动下,基于 CXL 的解决方案的行业势头继续增长。”

·澜起科技发布全球首款CXL内存扩展控制器芯片

5月6日,澜起科技发布全球首款CXL内存扩展控制器芯片(MXC)。

图片来源:澜起科技

据了解,这款MXC芯片是一款CXL DRAM内存控制器,属于CXL协议所定义的第三种设备类型,按照 CXL 2.0 规范设计,支持 PCIe 5.0 规范速度,专为内存AIC扩展卡、背板及EDSFF内存模组而设计,可大幅扩展内存容量和带宽,满足高性能计算、人工智能等数据密集型应用日益增长的需求。

·三星推出 512GB CXL 内存扩展器 2.0

5月10日,三星宣布开发出三星首款512 GB内存扩展器 CXL DRAM,采用ASIC 的CXL控制器,并首次封装了内存容量为512GB的 DDR5 DRAM,与之前的三星CXL产品相比,内存容量为其4倍,系统延迟仅为其五分之一。

三星半导体512GB内存扩展器 CXL DRAM

值得一提的是,三星这次推出的这款内存模组CXL内存扩展控制器芯片正是由上述提到的澜起科技提供。

写在最后

每当一个新名词的出现,就意味着即将出现一个新市场。虽然CXL仅用两年时间就走完了其他标准长途跋涉的路,成为本次互联标准争夺战的获胜者,但其市场还未成熟,这或许又是新的发展机遇。从上述提到的大厂布局,我们可以看出,大陆选手在CXL领域并未落后,甚至抢先获得一分,想必未来只会更加精彩。

正如夏晶晶老师在知乎上曾表示的,CXL是intel对计算产业的一次巨大让利,做好CXL很有可能短期在中国国内获得独特的性能优势。

来源:内容由半导体行业观察(ID:icbank)原创,作者:龚佳佳,谢谢。

推荐阅读
关注数
11284
内容数
1935
最有深度的半导体新媒体,实讯、专业、原创、深度,50万半导体精英关注。专注观察全球半导体最新资讯、技术前沿、发展趋势。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息