近一个月以来,“大模型上车”成为热门话题,长安、长城与百度合作、吉利与阿里合作、奇瑞与科大讯飞合作……纷纷发布大模型在汽车上的部署进展。AI大模型热潮下,百业千行都在紧跟潮流发挥着想象力,一场大模型上车的竞赛悄然打响。作为AI大模型部署与运行的基础,智能处理芯片也在“应时而动”,将展现出哪些新的变化趋势?
大模型正在登陆汽车端
在智能化理念逐渐被车企接受后,汽车最终将变为“行走的移动终端”,已经成为多数人的共识。近月以来,有关大模型上车的消息不断。百度文心一言作为国内最早发布的通用大模型,目前已与东风日产、红旗、长城、吉利等车企合作;阿里的通义千问也与吉利等车企合作;而最新的消息则是科大讯飞的星火大模型将接入奇瑞旗下的星途星纪元ES车型。今年以来,国内通用及垂直行业类大模型已经超过80个,呈现“百模大战”之势,大模型登陆汽车端的势头已经不可阻挡。
从产品应用的角度来看,大模型上车的主要方向有两个:一是进入座舱域,实现更加智能的人机交互;二是与自动驾驶系统相配合,进一步完善智能驾驶解决方案。在接受采访时高通就表示,随着生成式AI和大语言模型的快速发展以及计算需求的日益增长,AI处理分布在云端和终端进行,才能实现AI的规模化扩展并发挥其最大潜能。大模型和生成式AI既需要云,也需要数十亿能够以低功耗进行高性能AI计算的网联终端,比如汽车。
一直以来智能座舱的车载语音助手存在感都很低,简单弱智的功能为车主所诟病。如果能够接入语音大模型,在生成式AI的助力下,车载语音助手有望变得更加强大,真正做到“越用越好用”。科大讯飞董事长刘庆峰在谈及与奇瑞的合作时就宣称,在大模型“上车”的过程中,会形成针对汽车用户需求特点进行训练。高通也指出,未来车内数字助手可以针对汽车如何维修提供信息,或为用户提供咨询,找到合适的服务提供商,提高车辆可靠性,此外在提升驾驶员疲劳监测预警、智能驾驶功能等方面也将发挥积极作用。
助力自动驾驶也是大模型上车应用的“好球区”。日前,特斯拉启动搭载1万颗英伟达H100 GPU超级计算机,用于自家FSD系统训练,就是其将大模型用于自动驾驶方面的一个尝试。对此,沐曦首席产品官孙国梁介绍:“对大模型来说,这实际上是一个驾驶脑的概念,在接收到各种感知信息后,通过规划和决策,以一种驾驶方式来控制车辆去避障绕弯,选择最优路径,从而把乘客送达目的地。”
目前的车载智能是一个多任务系统,那些复杂的任务需要非常多的小模型来分别实现。而智能驾驶的未来会走向端到端,可以用单一的大模型或者用少量的模型进行替代,智能驾驶的效率和性能将因此而提升。
高算力的同时强调通用性
汽车智能驾驶算法的进一步升级必然会对芯片的运算支持能力提出更高要求。安谋科技NPU产品总监杨磊指出:“对芯片性能需求变大,这是毋庸置疑的。因为随着大模型功能的加入,车辆本地承载的功能更多了,无论是辅助驾驶还是自动驾驶,都要在车上去实现。而且这两者往往是相加的关系,因为它们一般情况是同时运行,而分时运行的。车载智能处理器一会跑ADAS,一会儿又去跑语音,这是不现实的,也必然会对芯片性能提出更高要求。”
从技术角度来看,实现汽车的智能驾驶,一般可以在三个方面对芯片进行部署,包括汽车端、云端或者路端。相应地,不同端侧的部署也会提出不同芯片解决方案。汽车端无疑是当前的主流,也是各家车厂争相部署的重点。孙国梁指出,如果在车端部署大模型并能实现既定任务,首先就需要在车端实现高算力,估算至少要达到300~500TOPS才能较好满足算力需求。其次,传输带宽也非常重要。高带宽内存 (HBM) 的供给受到广泛关注,正是人们希望缓解大模型运算时频繁且庞大的数据传输瓶颈。第三,功耗也值得重视。尽管汽车对功耗问题不像移动终端那样重视,但低功耗依然是强调的重点。
在云端对智能驾驶进行时实操控,优势也十分明显。它相当于以一个上帝视角对车辆进行实时操控,可以得到非常好的驾驶体验;但是缺点同样明显,不仅成本高,对时延的要求也非常苛刻,哪怕不足一秒的闪失也有可能会造成严重的事故。这就需要芯片有更高算力的同时,具备较高通信能力。具体而言,云端部署基本需要3000TOPS以上的算力才能支撑。
路端的主要作用是搜集传感数据,需要在路端与汽车端之间形成一个有效的通信系统,实现高带宽与低时延的信息传输。对算力来说,路端需求倒没有那么突出,1000TOPS基本可以满足。
值得重视的是,在记者采访中,很多嘉宾还提到了芯片的通用性或扩展性问题。孙国梁就指出,现在大模型的发展非常快,每个月都会更新换代,而芯片的流片和设计生产却是按年为单位的,尤其是在车端基本上都会采用14纳米以下的先进制程,其设计、流片、生产周期非常长,这就使得芯片的通用性变得重要。以往在车上进行人工智能处理的芯片较多采用专用芯片如ASIC。孙国梁认为,如果要在汽车端部署大模型的话,需要一个高算力高通用性的GPU解决方案。沐曦通过软硬件一体的全面GPU生态解决方案,从产品路线和生态战略上均可满足车端大模型落地部署的高算力需求。
同样的,杨磊也提到了芯片的扩展性问题,即用什么样的计算单元去实现部署的算法?很多企业都推出NPU解决方案,针对大模型的特点进行硬件的架构升级。它带来的优势也非常明显,可以实现数倍甚至更高的计算效率提升。但是,企业在进行这种硬件架构升级时,应当特别注意芯片架构层面的扩展性。
强强合作是趋势
随着越来越多车企对大模型上车投注了兴趣,国内外芯片企业也开始在这方面进行深刻布局。杨磊指出,这确实是一个很好的机会,因为不像云端大模型训练市场相对集中于少数一两家企业,现在的汽车场景还处于一个百家争鸣的阶段。
但国内企业面临的主要问题是,车规级芯片厂商的产品大多算力不足。具备大算力开发能力的厂商往往缺乏开发车规级芯片经验。既有通用性,又有高算力,芯片还能过车规,这样的企业在中国是非常少的,甚至可以说现在还没有这样的企业。
对此,孙国梁认为,国内企业要想投入这一领域的开发,需要重点考虑三方面的问题:一是严苛的车规级芯片设计认证流程。车规芯片的设计流程长、投入大,比消费类工业类芯片更加费时费力费钱。二是用户的导入周期长。一年流片,次年量产,三年导入客户,第四年才能实现营收,这往往是常规流程。对公司的资金、人才都是非常大的挑战。国内企业要能经得起长时间坐冷板凳的考验。第三是公司的算力IP,包括模块,要具有一定的通用性。孙国梁建议,国内的车规级芯片与大算力芯片厂商应当联起手来,进行某种IP级的合作,这或许是未来一个阶段的发展趋势,是在大模型上车背景下,国内企业能够快速导入相关领域的一个有效的解决方案。
杨磊也强调,尽管国内企业面临挑战,但这是一种新技术下的新市场,国内外企业基本处于同一条起跑线上,国内企业完全有机会抓住。而中国的企业更接近本土的市场,更了解本土客户的需求,可以更快提出解决方案。所以,国内芯片企业一方面应加强与本土算法公司的合作,另一方面加强与车厂或应用终端侧的合作,在软硬件上进行联合设计和优化。这样可以更加有效地体现出本土化的优势。