来源:内容来自半导体行业观察(ID:icbank)原创,作者:李飞。
随着人工智能应用的普及,云端相关的计算需求也在相应上升。对于基于神经网络的人工智能来说,算力是实现高性能模型的关键资源。
在云端的人工智能计算中,“内存墙”是一个重要的性能瓶颈。在目前的主流计算机架构中,处理和存储是两个截然不同的部分,而随着摩尔定律几十年来的发展,事实上存储器(尤其是主存DRAM)的性能发展是要远远落后于处理器的计算逻辑性能发展的,因此DRAM速度(包括存取和接口)就成为了限制云端算力发展的一个瓶颈。另一方面,云端人工智能模型的发展潮流是模型参数越来越多,例如在推荐系统这样的云端人工智能传统项目中,典型模型的尺寸达到GB数量级;而在语音识别、自然语言处理、计算机视觉这样的领域中,最近随着transformer类模型逐渐占据主流,模型的参数量也在上升。这两者相结合,就是一方面人工智能计算对于内存的需求越来越高,而另一方面传统的DRAM方案并不能满足云端人工智能的需求。
在这样的情况下,存算一体的方案正在获得越来越多的关注,并且正在慢慢由研究领域进入商用化。存算一体是指将内存和计算以相比传统计算机架构更紧密地结合在一起,从而减少内存访问带来地开销,并且解决“内存墙”问题。在云端计算的应用场景,存算一体方案主要是围绕DRAM去做创新,希望能将计算和DRAM能集成到一起,并以此降低内存访问的能量和延迟。对于具体的做法,实际上有两条主流技术路线:即近内存计算(near-memory computing)和存内计算(in-memory computing)。
业内巨头在相关领域有所动作,往往是一项技术走向成熟和商用的标志。对于云端存算一体来说,我们最近看到三星和阿里巴巴在这个领域都有相关技术发表。三星在今年下半年的顶级商用芯片会议HotChips上发表了HBM2-PIM相关的技术,而阿里巴巴在基于3D封装实现存算一体的论文则收录在明年二月即将召开的国际固态半导体电路会议(ISSCC)上。从技术路线上来说,三星主要是走存内计算的路线,同时也兼顾近内存计算;而阿里巴巴目前则主要是针对近内存计算做开发。
三星的存内计算路线三星的存内计算技术称为“Aquabolt-XL”,主要是基于其HBM2 DRAM技术做了存内计算(HBM2-PIM)。具体来说,Aquabolt-XL在HBM2 DRAM内部集成了计算逻辑,因此拥有HBM2-PIM技术的DRAM既可以当作一块普通的HBM2 DRAM来用(即直接写入读出,而绕开计算逻辑);也可以在写入和读出的时候同时让计算逻辑去做计算。当需要使用存内计算的时候,CPU只需要给HBM2-PIM写入数据以及相应的计算指令,而下次读出数据的时候可以直接读出已经计算好的结果。
存内计算的技术路线中,计算逻辑和存储单元都是使用相同的DRAM工艺,因此通常存内计算逻辑的性能比较有限,时钟频率无法到达很高,做到高性能计算逻辑则需要依靠对于DRAM工艺的深厚积累和优化。另一方面,由于计算逻辑和存储单元是深度集成,因此计算逻辑可以以较小的开销最大化地调用存储单元,并且可以做协同设计和优化。最后,存内计算在HBM2 DRAM中实现之后,可以较快地应用到其他规格地存储器中,包括用于桌面地DDR/GDDR以及使用于移动端的LPDDR等。除了HBM2-PIM之外,三星还公布了近内存计算方案AxDIMM,实现了在每个DRAM芯片旁边都集成了一块单独的加速器逻辑并可以同时访问,从而等效地大大增加了访存带宽。
对于三星来说,主要走存内计算技术路线非常符合其技术背景以及商业模式。HBM2-PIM技术实际上是一块带有计算功能且在人工智能应用中能提升系统性能地内存芯片,所以三星最终还是希望能通过这个技术来确保其存储器业务在人工智能时代能继续保持领先。此外,三星在DRAM工艺领域地积累也确保它能做到使用DRAM实现存内逻辑计算的最优化,以及集成的成本可以控制到较好。
阿里的近内存计算路线与三星相对,目前阿里巴巴在存算一体领域走的是近内存计算的方案。根据目前公布的资料,阿里巴巴的存算一体方案是把计算逻辑芯片和DRAM使用3D封装技术封装到一起,从而利用封装带来的高IO密度来实现高内存带宽以及较低的访问开销。从发表在明年ISSCC论文中,我们也可以看到这项技术是由阿里巴巴达摩院和紫光共同开发而成。
使用近内存计算可以让计算逻辑使用和存储器DRAM单元不同的工艺来实现,这样计算逻辑可以实现较高地性能和能效比。另一方面,这可能也是阿里巴巴这样并不掌握DRAM工艺的厂商入场存算一体最合理的方式了。同时,该技术使用的3D封装技术加上定制化的额外计算逻辑将会使整体成本较高,必须要找到合适的应用场景才能体现其价值。目前,该技术主要还是处于研发阶段,未来还有一些重要的工程化里程碑尚待解决,包括量产、良率等。
在商业模式方面,阿里巴巴显然是以自用为首要目标,因此其存算一体研发主要的目标是能针对目标应用提供不受内存墙限制的计算解决方案,而不像三星一样是开发下一代存储芯片。从这个角度来说,只要阿里能确保这样的近内存计算存算一体解决方案在推荐系统等高价值应用中能提供足够的性价比(例如,比起采购GPU来说更便宜),就有进一步推动下去的动力。
中国云端存算一体的未来目前,我们看到存算一体已经成为巨头争相研发的目标,未来有机会成为云端高性能计算领域的关键技术。我们同时很高兴看到中国的阿里巴巴在这个领域的成果。展望未来,我们认为存算一体的两个技术方向将会继续共存,其中近内存计算凭借其使用先进工艺节点的计算逻辑可以针对高价值应用场景做极致的加速优化,而存内计算则可能会成为下一代应用在高性能计算的存储器技术广泛应用在通用的计算场景中。
中国在存算一体领域和三星这样的国际巨头的差距主要体现在存内计算领域。中国在DRAM领域的技术仍然相对落后,而如果要让存算一体真正进入大量部署,则必须要在DRAM中集成计算逻辑的方向也有突破。目前,我国在DRAM领域有大量投入,希望能在补足差距的同时,也能兼顾存内计算这样的前瞻性技术,从而能赋能中国的高性能计算和人工智能计算需求。