伴随着海量数据时代的来临,数据传输难题将越来越大,行业对高速高密、低功耗和低成本网络解决方案的需求大幅提升,而作为一项突破性技术的硅光,逐步成为众人的焦点,每隔几个月,似乎就会有另一家初创公司出现,承诺在更长的距离上提供大带宽,同时使用比铜互连更少的功率。
据知名市场调研机构LightCounting预测——到2022年,硅光子技术将在每秒峰值速度、能耗、成本方面全面超越传统光模块预测;而到2024年,硅光光模块市场市值将达65亿美金,占比高达60%。换句话说,抛开现有的电子模块不谈,未来光模块将大量被硅光技术取代。
对于目前尚在积累发展硅光互联领域来说,竞争已经逐步变得激烈了起来。关于硅光技术的下一步路线图,可以参考文章_《硅光的下一代技术路线图》_,在本文中,我们只是统计一些硅光新贵的一些想法。
Ayar Labs TeraPHY
2020年12月15日,初创公司 Ayar Labs 展示了其首款可用的 TeraPHY,这是一种光学 I/O 小芯片,采用 GlobalFoundries 的 45nm 硅光子工艺制造。
在应用领域,TeraPHY 小芯片可以与以太网交换芯片、通用处理器 (CPU)、图形处理单元 (GPU)、AI 处理器和现场可编程门阵列 (FPGA) 等设备共同封装。Ayar Labs 表示,它正在努力将光学器件添加到以太网交换芯片中,这是与共封装光学器件最相关的应用,但其重点是人工智能、高性能计算和航空航天应用。
与其他一些公司不同,Ayar Labs专注于“光学驱动的计算”(optically enabled computing),特别是解决依赖电子主机ASIC的传统计算机架构日益面临的带宽-距离瓶颈,而不是光学计算(optical computing)。
Ayar Labs表示,随着计算需求的迅速增长,这些ASIC一直试图在不同的包之间转移越来越多的带宽。而且,虽然数据中心内的许多通信都是在光域进行的,但大部分包到包(package-to-package)的通信仍然是通过铜互连进行的。这就产生了一个权衡:电域中的铜越多,I/O距离越大,芯片之间的带宽就越小,而延迟和功率需求就足够低。
Ayar Labs则希望通过“一种新的光子集成、技术和产品”打破这一瓶颈,真正推动电-光之间的转换,并且尽可能接近主核的ASIC。据悉,这种产品的其中一个元素是一种名为TeraPHY的光学I/O芯粒(chiplet)。这种芯粒被设计成倒装芯片,与ASIC(如英伟达GPU)连接在同一基板上,并直接放在ASIC旁边。携带数据的光通过一条单模光纤连接带输入(或输出)到单晶片,其中微环谐振器系统将光信号解码为电信号。
英特尔和 Ayar Labs 此前详细介绍了与两个 TeraPHY 共同封装的 Stratix 10 FPGA,用于相控阵雷达设计,作为美国政府支持的 DARPA PIPES 和电子复兴计划的一部分。而向 FPGA 添加光学 I/O 小芯片适合多种航空航天应用,包括航空电子设备、卫星和电子战。
Ayar Labs所展示的 TeraPHY 使用 8 个发送器-接收器对,每对支持 8 个以 16、25 或 32 吉比特每秒 (Gbps) 速度运行的通道,以实现高达 2.048 太比特的光学 I/O。该芯片可以使用串行电气接口或英特尔的高级接口总线 (AIB),这是一种使用较慢 2Gbps 通道的宽总线设计。最新的 TeraPHY 使用 32Gbps 不归零 (NRZ) 串行接口,Saleh 表示该公司正在开发 56Gbps 版本。
此外,该公司还展示了 4 级脉冲幅度调制 (PAM-4) 技术,但许多应用需要尽可能低的延迟链路。“PAM-4 为您提供了更高的数据速率,但它伴随着前向纠错的负担,”Saleh 说。使用 PAM-4 和前向纠错时,延迟为数百纳秒 (ns),而使用 NRZ 链路时延迟为 5 纳秒。
Ayar Labs 的下一个基于 AIB 的并行 I/O TeraPHY 设计将使用英特尔的 AIB 1.0 规范,并将使用 16 个单元,每个单元具有 80 个 2Gbps 通道,以实现 2.5Tbps 电气接口。相比之下,与 Stratix 10 FPGA 一起使用的 TeraPHY 有 24 个 AIB 单元,每个单元有 20 个 2Gbps 通道,总体电气带宽为 960 GB,而其光学 I/O 为 2.56Tbps,因为使用了 10 个发送-接收对。
光带宽故意高于电带宽。首先,并非芯片上的所有发送-接收宏都需要使用。其次,该小芯片具有一个纵横开关,允许一对多连接,以便可以在多个光学接口上发送电通道,反之亦然。
Ayar Labs指出,该芯片的重点是利用主机SoC(芯片系统)的高带宽,以尽可能快的速度将其转换为光域,然后以更加可扩展的方式以低能量长距离移动大量带宽。
微型谐振器架构所实现的小型化和集成化水平使光到电/电到光的转换发生在“一个更密集的起点,最终变得更为节能。而传统产品(如可插拔收发器),则是针对更成熟的光通信市场。
Ayar Labs系统的另一个核心组件是该公司的SuperNova激光光源,它位于不同的芯片上,可以产生16个波长的光,传输到16根光纤(每根光纤本身可以携带16个波长)。这将光源从ASIC封装中分离出来,该公司认为这将提供更灵活的跨应用部署,并更容易在现场更换部件。
Lightmatter Passage
2020年10月27日,Lightmatter宣布推出Lightmatter Passage——一种晶圆级可编程光子互连,允许异构芯片阵列(CPU、GPU、内存、加速器)相互通信以前所未有的速度。Passage 实现了片上机架互连的现实,提供了芯片之间完全可重新配置的连接拓扑,从而降低了构建异构计算系统的成本和复杂性。
Passage 的独特设计将 40 个可切换的集成光子通道封装到传统上仅支持一根光纤的同一空间中。Passage 是多年互连路线图中的第一个性能不断提高的产品,可在 8 英寸 x 8 英寸的 48 个芯片阵列上实现 1Tbps 动态可重新配置互连,最大通信延迟为 5 纳秒。其结果是以更低的能量实现更高带宽的通信,并且无需昂贵的光纤到芯片封装过程。这种架构方法提供了一条经过验证的路径,可提供 100Tbps 带宽的芯片间通信,是当前可用的最先进光子互连解决方案的 100 倍。
在宣布 Passage 之前,Lightmatter 于 2020 年 8 月推出了其人工智能 (AI) 光子计算机芯片:一种通用人工智能推理加速器,利用光来计算和传输数据,从而减少热量和能源消耗并提高计算性能数量级。Passage 能够将该芯片与多种其他芯片集成,以实现单晶圆级高速计算系统。该系统直接满足了对更快、更节能(超级)计算机的迫切需求,能够支持下一代人工智能推理和训练工作负载。
Lightmatter希望通过 Passage 颠覆先进的封装游戏。Passage 连接到光学中介层上的 48 个客户芯片。Passage 建立在GlobalFoundries Fotonix 45CLO 工艺技术之上。它旨在以非常高的带宽和性能连接许多芯片。这种optical interposer打破了带宽限制,在每个tile之间提供每秒 768 太比特,并且可以以每秒 128 太比特扩展到多个interposers,这是传统封装无法达到的能力和规模水平。
Lightmatter 称之为 Gen 1 的可插拔光学器件多年来一直用于连接数据中心内的交换机,由于英特尔和Ayar Labs等公司,第 2 代和第 3 代光学器件(将光学器件放在同一个封装上或直接连接)开始进入网络交换机和计算领域。Lightmatter 想通过 Passage 直接跳到第 4 代和第 5 代。
英特尔和 Ayar Labs 等标准联合封装光学器件的规模比 Lightmatter 使用的光学中介层解决方案低一个数量级。其互连密度高出 40 倍,因为单个芯片中只能插入大约 200 根光纤。而 Passage 具有可动态配置的结构,互连是完全静态的,这种光中介层可以在芯片之间进行交换和路由,整个互连可以在 1ms 内重新配置。
Lightmatter 表示,他们可以支持所有拓扑,例如 all to all、1D ring、Torus、Spine 和 Leaf 等等。Passage 的交换和路由在 48 芯片阵列上的任何芯片与任何其他芯片之间的最大延迟为 2ns,而切换是通过使用环形谐振器调制颜色并使用马赫-曾德干涉仪来引导它们来实现的。
Lightmatter 的光子晶圆级中介层具有 A0 硅,并声称每个站点使用的功率不到 50 瓦。每个站点有 8 个混合激光器驱动 32 个通道;每个通道运行 32Gbps NRZ。
Lightmatter 的晶圆级硅光子芯片主要采用硅基制造技术;它有许多相同的限制。即光刻工具的标线限制。GlobalFoundries 和 Lightmatter 通过缝合波导解决了这个问题。纳米光子波导的光罩间连接在每个光罩交叉处仅具有 0.004 dB 的损耗。波导损耗为 0.5 dB/cm,每个 Mach-Zehnder 干涉仪损耗为 0.08 dB。每次交叉也有 0.028 dB 的损耗。
Lightmatter 表示,借助 UCIe,他们可以运行最高规格的 32Gbps chiplet到中介层互连。如果使用直接 SERDES,他们相信它们可以以 112G 的速度运行。客户 ASIC 被 3D 封装在中介层之上。然后 OSAT 将组装这个最终产品。它可以有多种变体,从 48 个芯片到只有 8 个芯片的更小的interposer。passage封装还必须为封装在顶部的芯片供电。它通过使用 TSV 为每个tile提供高达 700W 的功率来做到这一点。在这个功率级别需要水冷,但如果客户 ASIC 消耗较少,他们可以使用空气冷却。
Lightmatter 还举了一个分解内存设计和多租户架构的例子。他们开始他们的 interposer可以支持任何协议,包括 CXL。interposer顶部的客户 ASIC 可以通过重新配置网络实现气隙,因此在特定芯片之间传递数据是不可能的。最大的问题是产品是否会出现以及何时会出现。这可能只是vaporware,也可能是高端领先的分类服务器设计的未来。Lightmatter 必须吸引其他公司为这个平台制造芯片。这些公司必须将其昂贵的开发信任与未经证实的合作伙伴。
Lightelligence Hummingbird
6 月 29 日, Lightelligence推出了全球首款专为以下领域设计的片上光网络 (oNOC) 处理器 Hummingbird,其采用先进的垂直堆叠封装技术,将光子芯片和电子芯片集成到一个封装中,作为数据中心和其他高性能应用的通信网络。
Hummingbird 是 Lightelligence 光子计算产品组合中的第二款产品。其光子算术计算引擎 (PACE) 平台于 2021 年末发布,利用定制 3D 封装和无缝协同设计,将光子学和电子学完全集成在一个小外形尺寸中。
Hummingbird 是利用 Lightelligence 的 oNOC 平台的产品系列中的第一个产品,该平台通过硅光子学实现创新的互连拓扑,从而显著提高了计算性能。其波导以光速传播信号,并利用到 64 核特定领域 AI 处理器芯片上每个核心的全对全数据广播网络,使 Hummingbird 在延迟和功耗降低方面比传统数字互连解决方案具有显着优势。
计算扩展挑战激发了光学互连解决方案的创建。与数字网络不同,Hummingbird 的 oNOC 技术通过启用原本无法实现的互连拓扑来提高密度扩展。
在 oNOC 中,功耗和延迟几乎不受距离影响,这使得该技术非常适合开发不依赖最近邻居通信的新的、更强大的拓扑。像蜂鸟这样的 oNOC 拓扑由于更高效的通信,即使在单个电子 IC 配置中也能实现更高的计算能力利用率。借助 oNOC,将工作负载映射到硬件变得更加容易,并为计算任务选择正确的拓扑提供了更大的自由度。
在 Hummingbird 中,Lightelligence 实施了跨 64 个核心的低延迟光学全对全广播网络。Hummingbird 拥有 64 个发射器和 512 个接收器,提供了实现各种密集光网络拓扑的框架。
Hummingbird 的电子和光子 IC 共同封装并集成到 PCIe 外形尺寸中,可安装在行业标准服务器中。与 Lightelligence 软件开发套件 (SDK) 相结合,可以优化机器学习和人工智能工作负载,以充分利用 oNOC。oNOC 和 Hummingbird IP 还可以针对其他独特的工作负载和应用程序进行定制。
据介绍,未来几代的Hummingbird将采用十字线缝合(reticle-stitching)来支持小芯片架构,以实现更好的可扩展性、提高能源效率并进一步减少瓶颈。
Celestial Photonic Fabric
Celestial AI在经历了一年多的沉寂后,它又重新崛起,宣布了一种新型的硅光子互连,涵盖了从芯片到芯片的整个领域。芯片、封装到封装以及节点到节点的连接。
当去年年初首次出现时,CelestialAI专注于构建名为 Orion 的人工智能加速器,该加速器将采用光学互连技术。从那时起,该公司的重点已转向向芯片制造商授权其光子结构。
说到底层技术,Celestial Photonic Fabric 基于硅光子学和先进 CMOS 技术的结合,与 Broadcom 合作设计,采用台积电的 4 纳米和 5 纳米工艺技术。
最先进的互连形式涉及在光学中介层上堆叠第三方 ASIC 或 SoC,或使用该公司的光学多芯片互连桥 (OMIB) 封装技术在芯片之间传输数据。对我们来说,这听起来很像 Lightmatter 在 Passage 上所做的事情,我们不久前看过,但 Lazovsky 坚持认为 Celestial 的技术效率要高几个数量级,并且可以轻松支持数百瓦的热量。事实是否如此,我们还需拭目以待。
对于初始设计,Celestial 的 Photonic Fabric 使用 56 Gb/秒 SerDes。该公司表示,每个节点有四个端口,每个端口有四个通道,每平方毫米可以达到约 1.8 Tb/秒。Lazovsky 声称:“如果您想互连到四元组(一个模块中的四个 HBM 堆栈),我们可以轻松匹配完整的 HBM3 带宽。”
对于其第二代光子结构,Celestial 正在转向 112 Gb/秒 SerDes,并将通道数量从 4 个增加到 8 个,有效地将带宽增加四倍,达到每 mm 2 7.2 Tb/秒。
要提取 Celestial 的光子结构提供的最大带宽,意味着在设计芯片时要考虑到该公司的光学中介层或 OMIB。根据 Lazovsky 的说法,这本质上需要用自己的技术替换现有的 PHY。尽管如此,互连并不依赖于专有协议(尽管它可以与这些协议配合使用),而是在设计时考虑了 Compute Express Link (CXL)、Universal Chiplet Interconnect Express (UCIe)、PCIe 和 JEDEC HBM。
该公司承认,技术“看起来与 Ayar Labs 的TeraPHY非常相似”,Photonic Fabric 也可以部署为小芯片以及 PCI-Express 附加卡。PCI-Express 可以说是最实用的,因为它不需要芯片制造商重新架构其芯片来支持 Celestial 的内插器,也不需要依赖尚处于萌芽阶段的UCIe 协议来实现小芯片到小芯片的通信。
PCI-Express 的缺点是它是一个非常大的瓶颈。虽然 Celestial 的光学器件能够提供海量带宽,但 X16 PCI-Express 5.0 接口的每个方向的最大速度约为 64 GB/秒。如果我们不得不猜测,这个选项确实存在作为概念证明,让客户熟悉这项技术。
该公司声称,该小芯片架构能够提供更高的带宽,但仍然受到约 14.4 Tb/秒的 UCIe 接口的瓶颈。我们会注意到,UCIe 在准备好进入黄金时段之前还有很长的路要走,但听起来小芯片也可以与芯片制造商的专有结构一起使用。
当然,此类光学互连面临的挑战并没有改变。除非您对带宽的迫切需求远远超出了使用铜线所能达到的范围,否则有大量现有且经过充分测试的技术可用于将小芯片物理拼接在一起。台积电的 CoWoS 封装技术只是一个例子。
然而,在更长的距离上,甚至在封装之间,光学器件开始变得更有意义,特别是在带宽敏感的 HPC 和面向 AI/ML 的工作负载中。这是 Celestial 看到的光子结构的首批实际用例之一。
该公司表示,由于互连支持 Compute Express Link (CXL),因此它可以用于共享 HBM3 内存。这个概念类似于我们过去详细讨论过的CXL 内存池。这个想法是,多个主机可以像连接到共享存储服务器一样连接到内存设备。由于 HBM 具有惊人的内存带宽(高达 819 GB/秒),它最多可以放置在距离芯片几毫米的地方。
对于那些训练大型语言模型的人来说,这可能会有点痛苦,因为在 Nvidia 的 H100 或 AMD 的 MI250X 等加速器上发现的内存与计算的比例是固定的。为了获得适量的其中一项(例如内存),可能意味着要为另一项付出比您实际需要更多的费用。
Celestial 声称,如果正确实施,其 Photonic Fabric 可以实现足够的带宽,不仅可以远距离支持 HBM3,而且最终可以在多个加速器之间池化内存。
因此,也许这就是杀手级应用程序,它不仅将使光学互连无处不在,而且还将可组合基础设施带入主流。