潘伟涛 · 2022年06月28日

从58Gbps到2Tbps:FPGA光子芯粒对传统收发器的降维打击

AWS的Nitro和阿里云的神龙都是这一系列的代表, 随着对性能的需求,对虚拟机方案的延迟和虚拟损耗导致很多企业,特别是一些做数值仿真和低延迟交易的行业上云带来了阻碍,于是这两家算是一个代表,另一个代表就是Fungible,它们的DPU非常有趣:

人类文明的进步,与“光”的使用密不可分。19世纪晚期,英国物理学家丁达尔向人们揭示了光的全反射原理,这也解释了光为何能在弯曲的水流或玻璃棒里向前传播。自此,人们就开始了对光传输介质的探寻。

上世纪中叶,高锟发表名为《光频率介质纤维表面波导》的论文。他创造性的提出,使用基于石英的玻璃纤维作为光传输介质,可以进行长距离的信息传输。由此,光纤逐渐登上历史舞台。和电缆相比,光纤在性能、可靠性、安全性等很多方面都有极大的提升,这也使得光纤成为了现代文明主要的通信介质之一,并引发了一系列通信行业的根本性变革。

在半导体领域,当前芯片间的主要互联方式还是基于电气连接。随着距离的增加,数据传输带宽会急剧下降,而由此带来的能耗则会大幅上升。下图就展示了芯片内部、芯片与电路板、电路板之间等不同维度下,数据传输带来的带宽损失与能耗增长。可以看到,即使在板级通信时采用光缆传输,相比芯片内部的传输速度和能效仍然下降了4个数量级

image.png

为了解决这个问题,业界已经开始探寻能否在芯片互联时使用光传输代替电传输,从而极大提升数据带宽、减少传输能耗、并延长数据传输的距离。在这其中,硅光子芯片技术正在获得越来越多的关注。

近日,一家名为Ayar Labs的初创公司展示了一款名为TeraPHY的光学收发器。这个光学收发器以芯粒(chiplet)的形式集成在英特尔Stratix10 FPGA上,可以达到2Tbps的数据带宽,传输距离最高可达2公里,而传输功耗则不超过每比特1pJ(10的-12次方)。

image.png
动图,左侧是两个光子芯粒,中间是Stratix10

相比之下,目前FPGA使用的PAM4收发器速率最高为58Gbps,NRZ收发器最高速率为30Gbps,而当前电气收发器的路线图也只不过安排到了112Gbps。也就是说,这种光学收发器至少可以取得近20倍的性能提升,传输距离和功耗更不可同日而语,而这也将FPGA收发器的性能带到了一个全新的高度。

Ayar Labs与光子芯片

Ayar Labs成立于2015年,总部位于美国加州。它是MIT的孵化企业,创始团队大都来自MIT、UC Berkeley等美国顶尖高校。Ayar Labs先后获得了英特尔资本、格罗方德(GlobalFoundries)以及洛克希德马丁等公司的数千万美元战略投资。

Ayar Labs专攻的主要领域就是芯片级的光子传输,前文提到的TeraPHY就是该公司目前的主打产品。TeraPHY的研发主要得到了美国国防高级研究计划局(DARPA)的项目支持。

在2019年的HotChips大会上,Ayar Labs正式推出了TeraPHY,并在前不久正式对这个光学收发器的性能进行了在线演示。在接下来的文章中,我将详细介绍TeraPHY的技术细节,特别是它的光学数据传输方式,以及它是如何与FPGA进行异构集成的。

image.png

Ayar Labs在2019年HotChips大会的讲稿幻灯片,已上传至知识星球“老石谈芯-进阶版”,请在文末扫码进入星球查看。

TeraPHY:光电转换的奥秘

光学收发器TeraPHY最重要的技术创新,在于它解决了光信号的“调制”和“解调”两个主要问题。这其中具体的物理学细节在本文不再赘述,下一段中,我尝试简单介绍其中的主要原理,不感兴趣的同学可以直接略过这部分。

简言之,它利用了类似于定向耦合器的原理,当两个光传输介质足够靠近时,其中一个介质里的能量就能耦合到另一个。此时如果在一个介质上加入电场,就可以改变光在这个介质中的传播速度,从而控制光波的相位。通过这个过程,电信号的变化就转变成了光信号的变化。之后当两个介质里的光再次耦合时,由于光波的干涉原理,就会产生不同振幅。如果把波峰看成1,波谷看成0,那光波的不同振幅就可以解码成由0和1组成的数字信号,也就完成了光到电的转换。这个过程就是著名的马赫-曾德尔干涉仪的工作原理。

Ayar Labs发明了一种环形谐振器(microring resonator),来实现上述的过程。相比马赫-曾德尔干涉仪,这种环形谐振器的尺寸要小100倍,能效高50倍,数据传输密度也要高25-50倍。通过使用这种装置,可以实现25Gbps到100Gbps的传输带宽。

image.png

此外,由于不同波长的光在同一介质里传输时不会相互影响,可以采用多种不同的波长代表不同的比特位,这样就实现了一定程度上的并行数据传输。

下图展示了TeraPHY单个通道的收发过程,可以看到,这里采用了四种不同波长的光。在发送端,利用环形谐振器将不同比特位的数据分别调制到这四种光波上,并利用光纤进行传输。在接收端,再利用环形谐振器进行解调,将不同波长的光信号转化成相应的电信号。

image.png

值得注意的是,为了提供稳定的初始光源,Ayar Labs还开发了一款名为SuperNova的激光源,它能够提供最多256种波长的光波,等效8.192Tbps的数据带宽。

image.png

SuperNova激光源

在HotChips19大会上,Ayar Labs公布了一个TeraPHY的测试芯片设计。在发送端,包含5个光学宏单元,每个宏单元支持16个通道,每通道25Gbps带宽,共计2Tbps。

image.png

发送端光学宏单元的芯片版图和架构图

在接收端则包含3个宏单元,共计1.2Tbps带宽。

image.png

接收端光学宏单元的芯片版图和架构图

光学芯粒与FPGA的异构集成

TeraPHY刚面世时,它被同构集成到一个RISC-V CPU芯片中,并代替了原有的CPU IO收发器。然而,这种同构设计的灵活性十分有限,例如,如果需要把TeraPHY用于其他芯片系统,则需要重新设计和生产整个芯片。

在芯粒(chiplet)设计大行其道的今天,将TeraPHY做成芯粒就成为了非常合理的选择在之前的文章中,曾详细介绍过英特尔的EMIB技术。EMIB最大的优点在于它降低了系统的制造复杂度,并降低了不同硅片与芯粒间的传输延时。由于无需制造覆盖整个芯片的硅中介层、以及遍布在硅中介层上的大量硅通孔,EMIB只需使用较小的硅桥在硅片间进行互联就可以满足硅片间的互联需求。同样的,由芯片I/O至封装引脚的连接和普通封装技术相比并未变化,因而无需再通过TSV或硅中介层进行走线。对于模拟器件(如收发器)而言,由于不存在通用的中介层,因此对高速信号的干扰明显降低。

英特尔的Stratix10 FPGA中就使用了EMIB技术集成了不同速率的收发器和高带宽存储器(HBM)。此外,EMIB还能用来连接多个FPGA硅片,通过这种方法,英特尔制造出了目前世界上最大的FPGA – Stratix10 GX 10M

这样,Ayar Labs就将TeraPHY做成了芯粒的形式,它使用了格罗方德的45纳米RF SOI CMOS工艺制造,在光学输出端包含10个光学宏单元,最高传输速率可达2.56Tbps。

image.png

在电气连接端,使用了名为AIB(Advanced Interface Bus)的物理层协议。AIB是英特尔推出的一个异构互联的开放物理层协议,关于它的技术细节在本文不再详述,它的技术白皮书已上传至知识星球“老石谈芯进阶版”,文末扫码进入星球查看并参与讨论。

image.png

最后,TeraPHY与FPGA硅片之间通过EMIB进行互联,并完成芯片封装,这也就是所谓的多芯片封装:Multi-Chip Package(MCP)。

image.png

这是又一个使用EMIB进行快速异构集成的典型实例。通过使用这种方式,不用重新制造完整的芯片,只需要将现有的FPGA芯片与芯粒进行互联和封装即可,极大提升了产品的灵活性,也大大降低了制造风险与成本。

image.png

在Ayar Labs最新发布的在线演示中,他们使用这个集成了光学收发器的FPGA进行了数据传输演示,并在8个光学链路下得到了2Tbps的数据吞吐量。Ayar Labs预计将在未来达到超过100Tbps的吞吐量,同时每比特的传输功耗不超过1pJ。

image.png

集成光学收发器的Stratix10 FPGA测试板卡,图片来自Ayar Labs

结语

制造玻璃的石英和制造芯片的半导体材料都源于沙子。正是这种取之不尽、用之不竭的材料,成为了推动人类文明进步的重要基石。而“点石成金”的背后,则是无数研究者的不断钻研与创新。如今,光和电在FPGA里进行融合,并进一步扩展了数据传输的前景。老石相信,这样的技术创新还会不断涌现,并继续推动技术和文明向前进步。

作者丨老石谈芯的老石
原文链接:网络交换FPGA

推荐阅读

更多IC设计技术干货请关注IC设计技术专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
10614
内容数
577
FPGA Logic 二三事
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息