基于架构创新,成为国内唯一一家跻身全球技术最前沿的半导体企业
近日,英伟达GTC大会上亮相了新一代GPU H100,800亿个晶体管,使用台积电4nm工艺,采用HBM3,可实现3TB/s的显存带宽,算力达到了2000TOPs,但功耗也创造了新纪录,达到了惊人的700W。可以说,英伟达已经在现有技术路线上把芯片性能和带宽做到了极致,业界将鲜少有企业能够用同样的方式取得更高的突破,要想在关键指标上突破,必须要发展新路径。
在人工智能应用推动下,存内计算这个新型计算架构逐渐被商业界看重,也成为未来造就计算芯片的热门技术之一。在这样的背景下,后摩智能异军突起,试图用存算一体来解锁大算力AI芯片,据悉,其首款基于SRAM的存算一体大算力AI芯片近日已被成功点亮。国内发展大算力AI芯片再多一条创新路径。
用存算一体颠覆大算力AI芯片
在人工智能、5G、大数据和自动驾驶交织而成的数字经济文明时代,计算能力将决定生产力。OpenAI发现,自2012年以来,人工智能所需的计算能力大约每3、4个月翻一番。所以现在,越来越多的芯片企业开始投入重金,不断的在AI大算力芯片上攻坚。
那么,目前市面上都有哪些主流的大算力AI芯片方案:
第一种是当下英伟达采用的的这种冯·诺依曼架构策略,用HBM来解决内存墙的问题,采用3D封装,工艺要先进,最新一代的英伟达GPU Hopper架构已经到了4nm。这种方案的优点是相对成熟,英伟达已经趟过。缺点是无法打造足够的差异化,能做到英伟达70-80分就差不多是极限,再者,其HBM成本占比较大,总体昂贵。
第二种是DSA,也就是算法和芯片高度绑定在一起的方案。其优点是,不仅可以提高计算效率,还能达到降低功耗的目的;该方案类似Turn-key的方式,比较方便省事。但这种方式的缺点是,算法和硬件是紧耦合的,部分算法硬化到电路里,以牺牲灵活性换取效率提升。因为不同客户所需要的算法各异,而且算法在快速迭代,完全黑盒的方式可能并不那么受欢迎。
在后摩智能看来,对于初创公司,如果没有技术创新而采用巨头大厂的技术路线,是很难在竞争中脱颖而出的。而且1-2倍的产品性能提升并不具有绝对竞争力,必须要有5倍、10倍以上的提升才能真正刺激到生态的转变。所以要想在大算力芯片上取得更高的突破和更长远的发展,宏观上必须要有差异化,不能以英伟达的方式去打败英伟达,就如同当年英伟达没用英特尔的方式来打英特尔一般。
存算一体这种打破传统存储墙和功耗墙的新架构,成为后摩智能颠覆大算力AI芯片的策略。目前在架构创新可称之为是第三种大算力AI芯片的方式。这是一条有风险的路径,但也是一条技术进阶比较大的路径。其实国外已有不少企业开始在创新架构上进行大胆的探索和创新,如英国公司Graphcore的IPU,就是采用基于SRAM的近存计算,其产品也颇具竞争力,只是云端训练市场生态太重。后摩智能则更进一步,基于SRAM做到了存内计算。
在各种存储介质中,SRAM是一项成熟度较高且能够满足理想存内计算并行性需求的存储介质之一,是未来3-5年产业化的必选路径之一。作为存内计算的计算部件,SRAM读写性能优势较大,存储逻辑简单清晰,不易受外界干扰,外围电路可操作性大,且能够和现在的数字处理器技术天然融合。
“采取存算一体这种新架构的方式,其技术演进的天花板会更高,而且在成本上更可控,未来也更容易做到大规模普及。”后摩智能联合创始人、产品副总裁信晓旭表示。
成立仅1年多,后摩智能的首款基于SRAM的存算一体大算力AI芯片就成功点亮,这也是业内首款大算力存算一体AI芯片。据后摩智能联合创始人、战略副总裁项之初透露,该款芯片采用22nm工艺制程,样片算力达20TOPS,可扩展至200TOPS,计算单元能效比高达20TOPS/W。相比国际厂商1~2TOPS/W的平均水准来说,后摩智能在能效比上优势明显。而且这是在不牺牲芯片灵活性的基础上做到的,后摩的芯片不但支持市面上的主流算法,还可以支持不同客户定制自己的算子。
500
后摩智能芯片开发板
当下信创等国产替代的刚需,给芯片创业公司带来了很大的市场机会,在这样的需求下,国产芯片无需各项指标都达到100分级别,可能及格就行,但在后摩智能看来,国产替代只是其中一个撬动的点,芯片是一个长跑赛道,要想真正经得住市场的长期考量,最终还是能够持续的用领先技术做出有竞争力的产品,真正给客户带来价值。
后摩智能信心何在?
当下AI创企众多,各种技术路径不同,做大算力芯片的不少,做存算一体芯片的企业也有一些,但用存算一体来做AI大算力芯片的却寥寥无几。后摩智能为何敢勇闯无人区?
信晓旭坦言道,存算一体大算力芯片确实没有企业工程实现过,主要系其存在一些技术难点,譬如存储单元阵列、AI core、工具链等各个方面都需要有经验、并且具备极强功力的团队,将其整合起来,还需要进行整体的协同优化设计,才能最终实现一款高效的基于存算一体的大算力AI芯片。当然如果这些难点被成功攻克之后,将成为企业最坚固的护城河。
后摩智能联合创始人、战略副总裁项之初补充道,“要做存算一体的AI大芯片,需要有两拨人:一拨是在存算一体学术领域达到国际顶尖水准的学者;另一拨是做过大芯片的工程派系。”后摩智能兼具这两大派系,创始团队的成员来自普林斯顿大学、美国Penn State大学等海内外知名高校,及AMD、Nvidia、华为海思、地平线等一线芯片企业,在先进存储器件及存算一体技术方向拥有近15年的研究积累,具有丰富的存算电路设计与流片、先进制造工艺从理论到实践、以及大芯片设计与实战经验,主导过多颗世界级芯片的研发量产,包括GPU、CPU、及高性能车规级AI芯片。
这两大派系的团队成员各司所长,又互相争议,对AI芯片的核心痛点——能效比进行深层次的碰撞。最终做出的产品有两大优势:一个是芯片的处理能效比大大提升,另外,存算融合的方式也提升了芯片的计算密度,为成百上千Tops的大算力提供更好的扩展性。
那么问题来了,既然后摩智能可以做,其他厂商是不是也可以集齐这两拨人进行复制?关于这方面,项之初告诉笔者,首先,对创业公司来说,有存算一体经验的工程师在工业界并不多见,新入者需要从零开始做起,而后摩智能已具有2-3年的先发优势,可以通过快速迭代产品提前拿下一定的市场。再者,像英伟达这样有足够资源的巨头,如果也反过来做存算一体的大芯片,对他们而言,最痛苦的是颠覆原来强大的生态,所以不到万不得已,他们不会自废武功。
在当下半导体创业热度空前、人心浮躁的大背景下,后摩智能聚拢了在存算一体和AI大芯片领域富有经验的团队,探索真正颠覆AI芯片的新技术,实现国产芯片换道超车,在前沿化和工程化上与国际大厂进行PK。一位最近新加入后摩智能,在某国际大厂工作了20多年的资深工程师表示,加入后摩智能不仅仅是金钱的意义,更重要的是公司的目标让他又有了为实现梦想而奋斗的感觉。
应用场景的无限可能
产品研发出来只是万里长征的第一步,能够真正找到落地场景才是更重要的。AI大芯片的第一个市场需求较大的场景是数据中心,早期的创业者们也大都聚焦在这个领域,目前这些企业也交出了一些性能不错的产品,现在对AI大芯片的需求已经逐渐来到边缘端,譬如智能驾驶领域,而且其需求快速增长,大有超越数据中心之势。因此,后摩智能首要主打的市场是智能驾驶、泛机器人等大边缘端。
后摩智能的市场逻辑是,绝对不会和英伟达进行水平竞争,而是要从垂直细分领域、且大厂生态壁垒最薄弱的地方切入。后摩智能指出,当下AI生态中最主要的就是算法,早期的CV类算法生态没有那么牢不可破,可作为一个发力突破点。在这方面也有成功的案例,CV类算法目前主要应用在安防和智能驾驶领域,早期安防领域是英伟达主宰的市场,但后来华为海思的3559A很快占领了安防市场;智能驾驶也是CV类的场景,其主要是解决眼睛看的问题,相对来说也是英伟达比较薄弱的地方。
500
后摩智能基于自研的存算一体大算力AI芯片,
成功跑通智能驾驶算法模型
所以在早期的AI落地场景中,后摩智能会优先选择CV类的场景,智能驾驶是后摩智能首选的方向。智能驾驶作为一个大的市场,作为技术栈,如果能够攻克,将来技术能力自然会外溢到机器人、数据中心等更多场景。
“如果市场下游比较固定,那供应链也是相对较稳定的,这对创业型公司来说是不友好的。而汽车当下是处于高速变化的场景,新能源车、智能驾驶各个新需求的诞生,车企需要找到更适配的供应链。这给创业公司带来了很大的机遇。”项之初指出。
后摩智能的团队在车规AI芯片上有丰富的经验。现在公司正在着手引入车规级认证。信晓旭谈到,像智能驾驶这样的大边缘推理机会很适合用SRAM做存算一体。当然后摩智能并没有止步于此,公司还在对新的存储介质RRAM和MRAM进行探索。他补充道,现在在SRAM上的AI核心的设计、编译器和解决方案等的配套,在RRAM上是可以直接继承过去的,经过几年的客户打磨,再随着RRAM等存储介质的成熟,继而进行更进一步的提升,彻底颠覆AI计算的格局。值得一提的是,后摩智能已经拿到了台积电RRAM的PDK。
结语
图灵奖得主、计算机体系结构宗师David Patterson与John Hennessy认为,未来将是计算机体系结构的黄金十年,新的架构设计将会带来更低的成本,更优的能耗、安全和性能。存算一体这种新架构作为延续摩尔定律的一条有利的道路,备受资本界和商业界关注。我们也已看到,国外已经有多家AI初创公司采用架构创新的路径发力AI芯片,并且还交付了非常有竞争力的产品,如Graphcore,SambaNova等。
在国产大算力AI芯片的攀登之路上,后摩智能作为国内唯一一家选择以架构创新的方式来设计大算力AI芯片,并且跻身为数不多的国际前沿技术研究企业的行列,必将为国产AI芯片弯道超车、赶超巨头带来更大的机会。