34

集微网 · 2023年07月05日 · 江苏

大算力时代,芯片散热技术变革前瞻

最近几个月来,中国台湾股市最火热的新闻事件之一就是AI及散热,包括主要散热概念股几乎全数大涨,尤其是与液冷散热相关的部分上市公司呈现数倍上涨。鉴于中国台湾是全球数据中心服务器最大产地以及散热模组产业发展相对成熟,这一事件或成行业发展风向标。

资本市场走俏背后,是散热技术愈发成为制约芯片等电子产品性能升级的阿喀琉斯之踵。

在行业人士看来,人工智能的竞争追根究底是算力竞争,而高算力芯片的一个主要瓶颈就是散热能力,未来几年AI行业中可能会出现算力被散热“卡脖子”的情况。此外,鉴于散热模组行业供给则和需求侧的矛盾不断加剧,散热甚至已经成为电子信息领域发展的最大痛点,亟待业界携力攻坚。

image

与此同时,随着散热需求越来越高、功耗瓦数不断增大和单价持续增长,散热模组市场以快速壮大之态势,成为前景广阔的蓝海产业。而当散热大战逐步进入千瓦功耗时代,一场洗牌大变局或不可避免,原有市场格局将受到前所未有的冲击,一些创新公司或新兴技术有望走向舞台中央,其中破局之道就在于通过创造性、颠覆性的技术探寻出最优解决方案。

算力时代 热成“祸首”

毋庸置疑,随着芯片效能越来越高以及大算力时代到来,芯片散热技术正变得越发重要。

中科创星董事总经理卢小保对集微网表示,散热已经成为电子信息领域发展的最大痛点,没有之一。“当前,海量数据正推动对芯片面积和数量需求的迸发式增长,同时芯片工艺微缩产生的功耗也在持续增加,这进一步加剧了行业供给侧和需求侧的差距与矛盾。在这一行业局势下,散热技术已变得至关重要,比如现在数据中心的关键痛点就是耗电和散热。”

在ChatGPT掀起全球AI热潮后,数据中心的耗电量还将大幅增加,因为其中涉及的各种CPU、GPU、存储芯片、AI芯片、交换机芯片和光模块等功耗都非常大,需要把它们产生的热量传导出去,否则芯片就会烧坏。卢小保还指出,“有超过55%的芯片失效都是来源于热传不出去或温度升高而引起,而且芯片在70度以上,温度每升高10度其可靠性就会降低50%。”

在诸多细分领域,散热技术的重要性不言而喻。芯瑞微创始人、董事长兼CEO郭茹进一步称,在芯片的有限体积内,如何将高集成、高能量密度产生的热值和热效应准确计算并顺利排出,已经成为多源异构芯片3D封装中最具挑战的问题。因为其间一旦对热的分析不到位,在影响上小则引发系统失效,大则会导致整个系统烧掉。

由于热源众多且分布不均匀,散热或热管理可谓是一个非常复杂的系统工程。正因如此,业界需要将相关热管理、散热技术快速提升,才能满足芯片等电子信息产品的持续迭代升级。

在迅猛发展的AI、数据中心强需求刺激下,散热模组技术的发展元年已经开启,而且正从风冷技术转向散热能力更强的液冷技术方案。广州力及热管理科技(NeoGene Tech)创始人陈振贤表示,“半导体工艺一旦进入2nm,芯片的晶体管数量和算力自然会高倍数提升,但AI算力飚升的场景对超高功率芯片的解热及散热将持续带来巨大挑战。最终真正能确保高算力IC芯片发挥其设计极致功能的将是针对这些IC推出的超高功率解热及散热技术。”

他还称,人工智能的竞争追根究底是算力竞爭,而高算力芯片最终的瓶颈是“热”。以往散热产业只能算是芯片产业附庸,地位不高、竞争激烈。但ChatGPT的上线不仅推动了高算力芯片快速发展,势必也将摧生顶尖的散热技术公司。随着高算力芯片的功率及功率密度急速攀升,拥有顶极散热技术的厂商势必将成为头部算力公司不可或缺的亲密合作伙伴。

千亿蓝海 且看中国

在行业发展格局方面,当前散热技术已基本形成了完整的全球产业链,并显现出勃勃生机。

卢小保分析概述称,从传统散热器角度,中国台湾地区的企业相对做得更好,整个产业已经发展到较高水平;在水冷板领域,北美企业相较更具优势;在氟化液等新兴散热技术领域,日本企业因在材料方面具备优势更具竞争力,但国内不少创新公司也已做得不错。

就国内整体市场状况而言,郭茹指出,国内散热产业起步比较晚,相应热分析的工业软件更是尚在襁褓期,在“产学研用”等方面都未形成系统化、规模化的产业效应,比如应用侧还没有引起足够重视,以及国内在通用化和标准化上的经验积累和相关专家还不多。但在AI和数据中心推动下,这一短板问题也在逐渐改善和加强。

不过,陈振贤则对集微网表示,全世界90%以上的散热模组厂都集中在国内,包括热导管、均温板、3D VC散熱模组等等,其中很多是中国台湾地区的上市公司,但工厂基本都分布在大陆,可以说传统的散热模组产业已经比较成熟。他还提及,在高算力芯片的影响下,散热行业从风冷转向水冷的过程中会对原有格局造成一些冲击。这是因为之前大大小小的散热模组厂太多,受到冲击再所难免。

另一方面,作为各行业刚需及痛点,散热产业也显示出广阔市场前景,并愈发受资本认可。

鉴于散热模组与AI高算力芯片是“连体婴”,英伟达万亿市值美元效应连带高算力散热市场走俏。例如从今年2月开始,中国台湾AVC和双鸿(AURAS)的股价一路飙升,较4个月前均实现翻倍。而在这背后,作为全球最大散热模组厂商,AVC是英伟达AI服务器系统DGX H100的风冷散热系统供应商,双鸿则是Supermicro服务器散热系统的供应商。

在市场规模方面,卢小保分析称,以对散热比较刚需的服务器为例,当前全球服务器全年出货量大概2000多万台,大致可以折算成每台需要三个芯片散热器。同时,假设300瓦(W)散热模组成为行业主力以及每瓦对应一元多的成本,那么服务器市场的容量约为180亿元。另外,手机、平板的VC散热模组大概在1美金左右,PC里的热管再加风扇约几十元,更高端的技术方案可以达到两三百元等,以及功率器件、激光器、大功率照明等场景中的散热需求也很明确且巨大。

总体上,目前电子信息领域相关散热市场规模超过千亿元级别,这还不包括新能源汽车电池等散热领域。卢小保展望道,“未来,随着散热需求越来越高,功耗瓦数不断增大和技术含量增加带来的每W单价持续增长,以及应用场景继续增多,散热技术市场规模将进一步快速增大。”

散热大战 催生变革

在高算力芯片功率不断升高同时,半导体产业界自然也掀起了芯片散热技术竞赛,并纷纷拿出其“杀手锏”。

陈振贤指出,高算力芯片的散热主要在于热设计功耗(TDP),英特尔当前在售的CPU最高TDP值是350瓦,明年推出新CPU功率会达到500瓦,而AMD届时推出的产品可能会达到600瓦。相比之下,英伟达目前的GPU H100的TDP设计规格已经达到700瓦,是业内最高功率的芯片。到了明年,单颗高性能AI芯片的热设计功耗将会突破1000瓦。

“当单颗高算力芯片功率达到1000瓦时,现有散热技术都将会被革命。未来,芯片大战将要转为散热大战。”陈振贤补充道,现在业界主要几家散热大厂都在开发采用风冷方案的3D VC散热模组,加上风扇散热能力可以达到六七百瓦,但弊端是体积太过庞大。比如目前英伟达DGX H100服务器搭载了8颗H100 GPU,采用3D VC散热模组,服务器为4U尺寸。由于液冷方案可以把体积做小,英伟达已计划将其升级成液冷方案。因此,对数据中心、高端运算而言,风冷3D VC散热模组将只会是一个过渡性产品。

image

英伟达H100芯片

整体而言,业界如今比较普遍的散热技术包括热传导、热对流、热辐射和相变散热等。但随着功耗持续增加,水冷板等新型散热方式愈发受到重视,未来或将成为行业主流。进一步来看,由于散热技术或热管理是非常复杂的系统工程,以及在各个环节中都需要想办法提升散热能力和效率,未来散热模组行业竞争也将充满机遇和变化。

在发展趋势方面,卢小保认为,散热产业经过多年发展已经存在一些头部公司,但在新的大变局时期,原有技术方案已不能满足新的需求,而且原来的既得利益者或龙头企业面临的挑战最大。在这种局势下,一定会有很多新兴技术脱颖而出,或者至少原来非主流的一些技术可能会成为新的主角,甚至原来完全不存在的技术未来也可能会成为主流。

虽然行业领先的公司会在新技术方面投入,但并不一定能维持其一线地位。陈振贤亦表示,“AI市场竞赛才刚刚开始,后续则是路遥知马力。一旦高算力芯片的TDP开始飚升,液冷技术市场很快就要面临新的变革,而目前市场上的当红炸子鸡未必能笑到最后。”

卢小保进一步强调,“传统的散热技术是制造业,也没有特别的技术含量。但现在的散热瓶颈越来越多,亟待引入非常多新技术。未来几年,散热行业的发展是基于技术逻辑,需要技术创新型企业,而不是单单是局限于传统的制造业技术。无论国内还是国外,都将诞生散热技术创新型的企业,以及可能会有新的巨头出现,或新技术成为行业主导。”

破局之道:创新“最优”

从芯片到器件到最终产品,可谓每一个层级都存在散热需求,而且其中涉及不同的底层材料和技术路线等。但在“供需”矛盾不断加剧下,散热技术已经制约诸多产业链环节的升级发展。

卢小保表示,从散热行业现状来看,可能不单单是国内被“卡脖子”的问题,可以说整个行业都面临技术转型升级和换代的痛点。但目前还没有出现特别成熟的技术可以去替换,距理想的解决方案还有一定距离。对于这一问题,需要业界在材料、散热结构、设计和成本等各个点上努力做出自己的贡献,而其中的关键在于要依靠一些创新性的技术和解决方案。

“如果只是在散热工程技术上争取改善,在原有方案上做一些微调或优化,那么进步升级的速度会比较慢,提供的散热能力与高性能、高算力等需求之间的差距会越来越大。”卢小保强调,只有通过一些创造性、颠覆性的散热技术,从根本上实现规模数量级或数倍的能力提升,才可能解决当前利用传统技术所面临的芯片性能散热供需差距不断扩大的问题。

尽管开发创新技术解决方案成为突破产业瓶颈的重要通路,但陈振贤指出,问题是创新并非那么容易,也不可能所有公司都能实现创新突破,最后市场只能接受少数几家的解决方案,因此很有可能形成赢者通吃的局面。对其它散热模组厂商而言,可以通过选择制造代工等产业链环节和细分方案等模式寻找一些机会。

在散热技术创新发展进程中,无论是芯片还是电子设备,产品的体积、设计成本、可靠性等方面都是企业绕不过去的门槛,这些也是散热技术必须平衡解决的问题。针对各种散热材料、技术以及应用场景,业界可以用不同的组合技术开发产品,从而找出现阶段的模式最优解。

此外,郭茹对集微网表示,业界要抓住散热技术发展的趋势破局,就需要从以前的经验式散热技术转变成以工业软件建模、计算为指导并贯穿于热设计的整体环节;从新结构、新材料两个方向做技术突破,从而实现最优化的散热设计。基于此,在各类新型技术的开发和利用过程中,才能让高效、便捷、环保的散热技术成为企业产品的高度竞争力以及“准入门槛”。

在当前产业环境下,散热技术的自主可控、自立自强也变得尤为重要。郭茹称,“在全球都在关注散热技术的背景下,我们要怎样实现自主可控的发展,如何能够站在市场上站得住脚以及成为产业发展的重要支撑,确实是我们整个业界企业和相关人士都应该思考的一些问题。”

推荐阅读
关注数
4364
内容数
629
集微网隆重推出“芯视野”专题,未来将客观反映行业高管对于热点事件的观点及分析报道。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息