22

徽州骆驼 · 2月1日

“舱驾一体”渐行渐近,“好用”的车载AI芯片该如何设计与定义?

当前,在域控制器集中式架构阶段,智能驾驶和智能座舱是车载AI芯片的两个重要应用领域。充分挖掘在这两个场景下的应用需求是车载AI芯片厂商的核心驱动力。新算法模型的引入,以及整车EE架构的发展,都会对车载AI芯片的迭代产生较大的影响。

不管是智能座舱,还是智能驾驶,所应用的算法模型都在不断地变化和演进,尤其是在智能驾驶领域,更为明显,从先前的CNN网络演进到现在的BEV+ Transformer+OCC网络,促使车载AI芯片向适应更新的算法模型的架构方向进化。

车载AI芯片的迭代与整车EE架构的演进相互协同发展。在域控制器集中式架构阶段,车载AI芯片基本都是针对特定功能域下的应用场景去设计和开发,比如,智能座舱或智能驾驶。随着整车EE架构进入跨域融合阶段,“舱驾融合”成为重点的关注方向,芯片厂商需要兼顾智能座舱和智能驾驶的应用需求,设计出一款高度适配“舱驾一体”的车载AI芯片。

一、新的算法模型对车载AI芯片的影响

当前,在智能驾驶领域,头部车企在城区NOA方面开始“攻城略地”,“BEV + Transformer”已成为实现这一战略目标的主要技术手段;在智能座舱领域,生成式AI大模型被逐渐引入,用来强化舱内的AI视觉和语音等人机交互体验。因此,在车载AI芯片上所运行算法的复杂度、模型参数以及数据规模均会大幅上升,倒逼车载AI芯片向新架构、大算力等方向演进。

但是,新的算法模型与传统的芯片架构之间存在着一定的“隔阂”,比如,不少业内人士反映,Transformer 网络在一些车载AI芯片上很难部署,主要原因在于过去传统端侧的AI芯片主要是针对CNN网络去设计开发,通用性比较差,对于Transformer等较新的算法模型适应性较弱。

针对这一问题,奕行智能创始人兼CEO刘珲回答说:“首先,Transformer和CNN两者计算类型完全不同。CNN属于计算密集型网络,整个网络是非常规整的、一层层的卷积操作,每层里若干通道的卷积核作为权重是可以被输入特征共享的存储数据。

“Transformer属于访存密集型网络,特点是算法模型里不规则形状的张量多,需要大量矩阵操作的Transpose/Permute/Reshape等算子,体现在硬件上就是对片上内存的容量和访存带宽的要求会比以CNN为目标的加速芯片高很多。映射在计算里面的表现便是对访存的来回操作,在内存中搬运的次数会比较多。所以,是否能够适应Transformer模型,不仅要看AI芯片是否具备足够的访存容量,而且还要有足够的访存带宽。访存带宽有多个层级,从计算内核到L1,再到L2,以及把这些东西连接起来的总线,都是决定因素。

“其次,Transformer对于浮点算力的要求非常高,因为Transformer的Attention模块是矩阵乘+ Softmax,它其实是一个指数运算,对精度的要求非常高。传统的AI芯片主要针对CNN网络设计,可以通过Int8来完成,基本上没有预留浮点算力。没有浮点算力,对计算精度会造成很大的影响,所以浮点计算资源不足是过去很多AI芯片存在的问题之一。

“最后,向量计算资源对于完成Transformer运算也非常重要。上面已经提到Attention是一个矩阵乘+Softmax来回重复操作的过程。矩阵乘是比较规则的矩阵运算,Softmax属于指数运算。而指数运算本质上是向量运算,向量运算就需要用向量引擎去做,如果用矩阵运算单元去做向量运算,效率会很低,因此,需要有足够的向量计算资源去支撑。”

那么,Transformer算法模型容易在什么样的芯片架构上部署,或者说如何才能提高芯片对新的算法模型的适配度呢?

1)专门增加相关的算法模型引擎

传统 AI 推理专用芯片大多针对 CNN/RNN网络设计, 普遍针对INT8精度,几乎不考虑浮点运算,并行计算效果不佳。如果将Transformer网络简单量化为INT8精度后,整体的性能会显著下降,主要是由于普通的激活函数量化策略无法覆盖全部的取值区间。

英伟达在设计GPU新架构Hopper时,专门增加了Transformer引擎,即专门为Transformer算法做了硬件优化,它集合了新的 Tensor Core、FP8 和 FP16 精度计算,以及 Transformer 神经网络动态处理能力,旨在加速AI计算的效率。Transformer引擎能够在训练神经网络的每个步骤中动态选择神经网络中每一层所需的精度,可以协调动态范围和准确度,比如,可以根据工作负载在FP8和FP16格式之间进行自动切换,期望跑的每一步都只用最低精度需求,同时又不损失精度的情况下来训练模型,以期达到最高的效率。下一代车载AI芯片Thor便是采用这样的GPU架构。

image.png
英伟达 Transformer 引擎工作原理示意图(图片来源:英伟达官网)

2)针对特定算子进行优化

设计一款什么算法模型都支持的芯片也不太现实,如果这样,成本一定高,研发周期一定长。那么,怎样才能让芯片尽可能多地去支持不同类型的网络呢?安霸半导体研发副总裁孙鲁毅谈到:“Transformer模型的核心算子是Self-Attention和 Cross-Attention ,中间包含了一些计算类型,比如矩阵乘法、Softmax等。首先,要从原理上支持他们中间的各种计算;其次,芯片以及工具链要具备足够的灵活性,后期便可以通过修改调整工具链,使得芯片在计算效率不下降的情况下去支持新的算法。

“网络模型的核心计算的地方集中在一些反反复复进行特定计算的操作上。正因为如此,才可以通过设计专门的芯片去提高效率。如果整个网络都是乱序的,那么,专用处理器就没法设计,只能做通用处理器了。因此,我们专门优化了一些很重要的算子,比如,针对Transformer里面的矩阵计算以及一些非线性计算的算子进行优化,来提高芯片对于一些特定网络的计算效率。”

3)适当增大内存带宽,避免其成为计算的“瓶颈”

在内存带宽的需求上,相比CNN,Transformer不仅模型更宽、更深、参数更多,其算子复杂度也更高,计算单元需要频繁地从存储单元中存取数据与指令,因此,Transformer网络对于SRAM的利用率,对于内部总线突发大带宽访问等方面提出了更高的要求。那么,到底需要多大的带宽?某芯片公司研发工程师回答说:“这不能一概而论,算力、SRAM大小、算法模型类型都会导致对存储带宽产生不同的需求。因此,芯片设计也不可能按照最大带宽来设计,否则芯片成本无法接受,需要依据具体的应用需求做出合理规划”

4)因地制宜,不同的应用场景适合不同的设计方式

后摩智能联合创始人&产品副总裁信晓旭说Transformer在性能上虽然比CNN有了很大的提升,但我觉得它并不是整个自动驾驶算法的终局,将来一定还会出现新的算法模型,能够更好地解决目前尚未解决的问题。在此情况下,如果把芯片做得过于专用化,可能在这一代芯片上,BEV /Transformer可以跑得很好,但当新的网络模型出来的时候,可能应对起来就比较吃力。

“现在,对于计算类芯片,大家的核心追求是计算效率。专用的芯片是基于算法定义芯片的方式,是其中一种提高计算效率的方式和手段。然而,自动驾驶是一个复杂的系统,在最开始做芯片设计时候,我们就需要能够真正的理解自动驾驶的业务流,并能够以此为导向来设计NPU:一定要从系统的维度去看,去设计,而不是简单的拼积木的形式。更多的时候,从传感器数据流进入系统开始,就要想着怎么设计才能让系统更高效的运行。

“因此,在智驾领域,不同的细分市场可能需要用不同的方式去定义和设计芯片。

  • 前视一体机方案适合采用‘算法定义芯片’的方式,因为前视一体机不需要实现太复杂的功能,通常也不会涉及到更先进的算法,这样的方式能够在最大程度上提高计算效率。
  • 对于高阶智能驾场景,还有很多Corner case尚未完全解决,大家在做芯片的时候就要考虑通用性,以及未来对新算法的适配性。芯片的底层设计要充分考虑上层应用算法的发展,在提供足够通用性的前提下,还要兼顾计算效率,这也是后摩智能当时选择做存算一体架构的原因之一。”

5)把NPU当成AI处理器来设计,而不是简单的AI加速器

针对当前最新流行的算法模型,爱芯元智联合创始人&研发副总裁刘建伟认为:“谈到处理器,一般都会有指令集的概念,我们是把算子作为这些处理器的指令集,即所谓的算子集就是处理器的指令集。以前的NPU主要是针对CNN网络去开发,如果是从设计加速器的角度去考虑,当时会很容易陷入到只考虑 CNN网络模型的惯性思维中去。而我们是把‘到底需要什么样算子’的需求分解到底层,相当于直接去考虑处理器的指令集应该如何设计。在这种情况下,当BEV和Transformer 出来之后,只需要增加一些BEV 和Transformer相关的算子就可以。以这样的思路去设计AI芯片,才能更好地兼顾通用性和灵活性。

“ 首先,把NPU当成一个AI处理器来设计,关注的是处理器的指令集。虽然网络结构变了,只是网络里面的算子的组合方式不一样,但是算子本身的变化没有那么大。

“ 其次,新的算法模型出来,到底需要什么样的算子?我们要做的事情是把这些算子实现好,让算子在硬件上跑得足够快。对算法工程师来讲,只需要考虑这个硬件能支持哪些算子,怎样才能让这些算子在硬件上跑得快。随着时间的推移,硬件和对应算子的适配度会越来越高。”

6)基于“软件定义芯片”的理念去设计AI芯片

要想设计好一款芯片,首先一定要深刻理解算法和软件。一位业内专业人士曾直言不讳的提到,为什么当前一些AI芯片不能很好地适配最新的算法,最大的原因可能在于他们前期的市场调查做得不充分,前瞻算法的发展趋势研究不透彻,导致设计出来的产品不具备有前瞻性,虽然能够解决以前客户提出的问题,但却不一定能够解决现在以及未来可能出现的问题。”

在笔者看来,地平线就是一家奉行“软件定义芯片”类似设计理念的公司。地平线智能驾驶产品规划与市场总经理吕鹏谈到:“我们一直都是强调要‘从软件中来,到软件中去’的理念去设计芯片,以软件驱动芯片的设计和创新的架构设计去支撑整个软件算法的开发。举个例子,如果一家芯片公司没有软件的Know-How,设计芯片时没有考虑清楚将来量产的时候最主流的算法会是什么,那么,一旦芯片量产后,运行当时最先进、主流的算法的效率可能会非常低,因此,芯片便很难支撑先进的算法落地。从本质上来说,征程6对Transformer高效的支持性能也是基于地平线对于算法的深刻理解而推演出来的结果。”

征程6采用地平线新一代纳什架构BPU,原生支持Transformer网络。针对Transformer网络模型,地平线在J6上有几个独特的设计:

a.强大的并行浮点算力:支持多线程并发的SIMT Vector Processing Unit(VPU);支持BF16/FP16/FP32 多种浮点数据类型,在性能和精度之间取得更好的平衡。

b.特别优化的超越函数:支持 Layer-norm&Softmax 算子的硬件加速;支持 Transpose&Reshape算子的硬件加速。Transformer模型中有一些非常关键的算子,虽然计算量不大,但复杂度很大。也就是说,计算量可能只占3%的算子,运行时间可能要占到10%~30%。因此,通过设计超越函数的算子,使得原本非常长的计算时间得到快速的缩减。

c.采用全新的存储系统设计,片上包括L0M、L1M、L2M,共三级存储系统,用于数据缓冲和交换。同时,先进的总线架构配合高带宽的DDR,有效缓解内存墙的问题。

二、舱驾一体对车载AI芯片的影响

1)为什么要做“舱驾一体”?

当前,主机厂大多处于域控制器集中式架构阶段。在以功能划分的域控制器基础上,为进一步降低成本和增强不同域之间的协同,出现了跨域融合,即将多个域融合到一起,比如,将动力域、底盘域以及车身域三者合并为整车控制域;将更高算力需求的座舱域和智驾域整合为“舱驾一体”计算域。

黑芝麻智能高级市场产品总监徐晓煜认为:“随着自动驾驶的部分功能成熟应用并且相应体验得到市场和用户的接受,智能化配置的装配率会快速提高并快速趋同,随之而来的行业挑战就是如何在保证功能、性能等产品指标的前提下优化成本并让不同定位的车型都可以标配。

“行业共识的有效路径就是对不同的系统作进一步的整合和集成,原本多个供应商的多个硬件需要融合为一个系统、一套硬件,从而在域控制器本身、硬件材料、连接线材、软件费用等多方面降低成本。

“现阶段是一个恰逢其时的时间窗口,新型的电子电气架构为舱驾融合在整车层面提供了底座基础,智驾和座舱的标准智能化也已逐渐趋向于成熟,同时,更重要的是芯片方面,新一代的高性能处理器已经问世,新的架构和技术可以更好地支持多功能的集成,从而可以更进一步将多芯片舱驾一体系统推向单芯片舱驾一体系统。”

2)实现“舱驾一体”面临的挑战是什么?

据相关业内人士透露,在2025年左右,会有轻量级的单SoC芯片舱驾一体方案量产落地。但也有部分业内人士没有那么乐观,他们认为单SoC芯片舱驾一体方案量产落地可能不会那么快,还存在一些问题待解决。整体来讲,舱驾一体肯定是大势所趋,大家普遍对在这方面的布局也比较认可。

“舱驾一体”面临的挑战,从技术角度,可以从硬件和软件两个维度来看:

  • 硬件层面

对于芯片厂商而言,开发一款合适的舱驾一体SoC芯片本身就存在很大的挑战。因为它需要将多个系统和功能融合在一起 ,并且还要能兼顾不同应用场景的需求 —— 有的重视响应,需要及时反馈;有的侧重安全,需要高稳定可靠性;有的既要性能强,还要兼容软件丰富,通用性好。

安霸半导体孙鲁毅谈到:“理想型的舱驾一体SoC需要在支持智能驾驶全功能高负荷运行的时候,还要支持座舱内的用户交互和娱乐系统,这非常有挑战性。

“要保证用户交互和娱乐系统非常好的响应速度和较强的3D图像渲染能力,舱驾一体SoC不仅需要充足的内存带宽,而且对GPU和CPU的性能要求也比较高。除非舱驾一体SoC单芯片的总性能大于等于单独的座舱SoC和智驾SoC这两颗芯片性能之和,否则很难保证两边同时工作的效果。而且,两边的DRAM系统最好是分开的,互相不影响内存带宽和访问延迟;另外,在GPU资源的使用上,座舱的娱乐系统和智驾系统最好也完全分开使用;如果AI计算使用专门的NPU,也要考虑是否被两套系统共享。”

“但这样的芯片,成本和功耗自然都不会低,而且复杂度很高,出问题的概率也会增加。而且,座舱和智驾的功能安全需求等级不一致,如果两边都做成满足智驾水平的功能安全等级,必然会抬高成本。如果两边按座舱的标准去做功能安全,智驾系统则存在安全性风险。总之,单Soc芯片舱驾一体方案目前仍是一个值得探索但尚未被成功验证的道路。”

  • 软件层面

座舱和智驾如何进行安全有效的隔离?智驾域的特点是高可靠性和低时延性;而座舱域更注重娱乐和用户体验,需要更丰富的功能和较高的OTA频率。如何把两个系统能进行很好的整合,保证不同任务的优先级情况和不同功能安全等级的实现,这都存在很大的挑战。

目前座舱和智驾中相关模块对功能安全的要求:智能座舱中控娱乐模块需要达到ASILA等级,仪表模块需要达到ASILB等级;智能驾驶泊车模块至少需要达到ASILB等级,行车模块需要达到ASILD等级。那么芯片底层的加速器资源针对这些不同功能安全等级的应用如何进行有效隔离是很棘手的问题。

对于单SoC舱驾一体方案,某Tier1智驾域控专家曾这样说到:“座舱和智驾这两种安全级别不一样的软件放在一起该如何共存?可以采用虚拟机的方式,也可以采用Container的方式。通过这些方式都可以在软件层面上把不同的应用隔离出来,但更大的问题在于隔离完以后该怎么办?通讯怎么解决、调度怎么解决、资源怎么保证,把这些问题都解决好才是更具挑战性的难题。”

从非技术层面来看,就是老生常谈的一些问题了,比如缺乏行业技术标准,以及组织架构不匹配等,但这些非技术问题解决起来的难度可能比技术问题更大。

  • 行业技术标准的问题

对于自动驾驶系统来讲,L0~L2有相应的标准。但是高阶自动驾驶尚处于演进过程中,业界没有统一的标准:传感器方案没有统一,感知的数据格式不一致,那么,它对芯片处理架构的需求不一样。可想而知,把高阶自动驾驶和丰富的座舱功能进行跨域融合和打通,形成所谓的“舱驾一体”,在业内更是没有统一的技术和产品标准去约束。

“舱驾一体落地需要行业标准的推动,甚至需要强迫一些厂商逐渐把他们的软件架构打开。制定行业标准的目的就是把大家的利益统一起来,谁不跟着行业标准走,谁就会吃亏、掉队,甚至面临淘汰,这样才能逐渐推动整个行业的发展和进步。”某Tier1智驾域控专家介绍说。

  • 组织架构方面的问题

针对舱泊行一体方案,研发部门的分工问题目前虽然已经被大家普遍意识到了,解决问题需要芯片厂家、主机厂以及一级供应商的通力协作。目前,在实施层面,主机厂的座舱和智驾项目大部分还依然是由两个独立的部门去完成,怎么能够跨部门把这个项目去落地, 需要有更符合方案需求、更具竞争力的产品以及全方位的技术支持来一起推动方案落地量产。

另外,目前大部分座舱和智驾系统分别还需要选择多个不同的供应商来完成,如何提供有竞争力的产品,在单一芯片上实现座舱、泊车以及行车辅助驾驶功能,帮助整车厂优化成本,降低研发投入,提升盈利;给终端消费者带来更优的用户体验,是芯片厂家和整车厂商所共同面对的机遇与挑战。

芯擎科技战略业务发展副总裁孙东认为:“做舱驾一体需要芯片厂家、主机厂或者Tier1在座舱开发、泊车开发和行车开发方面有一定的积累。因此,舱驾一体落地更大的挑战是要提供实际需求的产品,相比现有方案,要能够给整车厂降本增效,能够让参与者受益和提升竞争力。新生事物肯定要打破以前的惯性,以前任何的一个组织架构都受到当时的技术条件和产品形态影响。随着市场的发展和技术的进步,舱泊行一体方案的发展,也会随之有新的东西诞生。对于芯片厂、软件公司、Tier1以及主机厂,都是很大的挑战,从产品技术规划、供应商的选择、合作方式以及团队组织架构方面,都需要有做出相应的调整来加速这个趋势的发展,使自身更好的在技术方案演进的过程中受益,并成为行业发展的引领者。”

3)“舱驾一体”的演进路径

舱驾融合是未来的发展趋势,已经成为行业内的共识。虽然现在还存在一些问题和挑战,但是只要我们发现了问题,问题终究会被逐个解决。但是,大家依然会关心:单SoC芯片的舱驾一体方案什么时候可以落地?舱驾一体的发展路线又将会是怎样的呢?

后摩智能信晓旭认为:“舱驾一体的发展路径应该是从One Box 到One Board,再到One Chip,循序渐进式的发展,不太可能一下子就跨越到单SoC芯片舱驾一体的‘完美’解决方案。比如,先通过One Box或One Board的方案,先试着去解决组织上的问题,把开发过程中碰到的问题以及各方的职责先梳理清楚,把该踩的坑先踩一遍。”

多数人基本赞同舱驾一体会走渐进式的发展路线,在硬件层面,会从One Box,One Board,再到One Chip。同样,在功能层面,也是会先集成已经成熟稳定的功能,慢慢再集成更高阶、更复杂的功能。

谈到舱驾一体发展路线时,芯驰科技CTO孙鸣乐认为:“座舱整合智驾相关功能,一个可能的路线是:座舱首先集成360环视、APA等泊车功能,再进一步集成ADAS行车功能,然后再集成更高阶的自动驾驶功能。L2.x的ADAS和座舱的集成,是相对比较有可行性的。而对于L3级别自动驾驶的集成,其难题在于,自动驾驶的边界到现在为止还没有完全清晰。比如最近“有图”和“无图”的方案讨论得很激烈,激光雷达是否会成为标配大家也有不同的意见,这些都是高阶智能驾驶面临的方向性问题,在这些技术路线问题尚未统一的情况下,高阶智驾功能就不太容易和座舱系统做集成。”

“从长期来看,终极方案 —— 单SoC芯片舱驾一体方案的发展是大方向。但现阶段,由于高阶智驾的功能需求尚未完全稳定,目前市场也没有性能和成本都比较理想的单SoC芯片能够很好地支持座舱和高阶自动驾驶的所有功能。因此,在市场需求的驱动下,当前舱驾一体会停留在L2.x的ADAS和座舱功能集成,高阶自动驾驶和座舱功能还会采用多SoC芯片方案来实现。

芯擎科技孙东也基本认同这样的演进路线:“ 目前,L2及以下的辅助驾驶功能,倾向于直接集成到座舱的SoC芯片去完成,芯擎科技现有产品的算力能够完全满足需求,并且具有极佳的性价比。L3以上的高阶智能驾驶方案,倾向于用更大算力的智驾SoC芯片去实现。

“ 目前,辅助驾驶在市场的渗透率也才30%左右,NOA功能的渗透率更低。如果有企业率先在市场上把舱驾一体方案推出来,并且切实降低了成本或在不增加用户成本的基础上,将原本中高端车型的智驾功能扩大到中低端车型,辅助驾驶的渗透率将会更快的提升,整个行业都会受益。新的事物进入到市场上,肯定要有一定的导入期。只要方案有价值,并且是可靠的,方案的全行业落地实现无非就是时间上的问题。”

关于舱驾一体方案的量产落地时间问题,徐晓煜认为:“讨论舱驾一体需要相对准确地定义不同的市场阶段所需要融合的东西。当前已进入成熟期的L2+级别自动驾驶与已大规模普及的座舱功能的融合,2025年起会进入量产和快速发展期。

“更高算力以及更高阶智驾的融合尚需时间,随着下一阶段未来5年高阶智驾的突破,面向2028年后的融合功能边界会逐渐清晰。同时,下一代工艺所支撑的新一代融合SoC芯片也会面世,进而可以支撑更高算力性能,更多算力类型的需求。

“可以看到,一些主机厂和Tier1已经开始筹备舱驾一体的平台项目,可以预见2024年将是舱驾一体突破期的起点,目前企业在协调不同部门开发模式上的挑战,软件上集成管理更多大型软件模块的挑战,新型芯片的软硬件完善和成熟方面挑战等,都会随着领先的OEM/Tier1的实际项目展开而得到快速解决。”

4)“舱驾一体”需要一款什么样的车载AI芯片?

对于单芯片舱驾一体方案,按实现的难易程度可以划分为:轻量级单SoC舱驾一体和高阶单SoC舱驾一体。

轻量级单SoC舱驾一体方案,会集成成熟的L2级的驾驶辅助功能+基本的座舱功能。面向的细分市场主要是针对20~25万左右的车型。徐晓煜认为:“对于这类的芯片,性价比是第一要素,通过单芯片最大程度减少系统元器件数量。除了可以将座舱和智驾各自需要的算力类型安全可靠地集成在一个芯片架构之上,还需要考虑将独立MCU、独立的外围接口芯片等都尽可能地做集成。挑战在于对芯片的架构、综合性能、面积、功耗等都带来了新的问题需要攻克。”

高阶单SoC舱驾一体方案,将会集成L2+甚至L3以上的高阶智能驾驶功能+丰富的座舱功能。未来,这样的方案必然是用于搭载于高端车型上。但是,由于高阶智能驾驶和高阶智能座舱的功能迭代和技术发展路线尚未完全收敛,同时,目前也尚未有一款合适的SoC芯片推出,所以,短期内很难量产落地。那么,那这样一款芯片应该具备什么样的特质呢?

image.png
高通Snapdragon Flex SoC 参考方案示意图(图片来源-高通)

  • 创新的硬件架构:满足跨域多场景需求,能够基于虚拟化技术将异构资源进行合理和安全地隔离分配 —— 把不同类型的算力,根据不同场景,以不同规格和安全要求进行灵活的搭配和组合。
  • 高算力需求:实现城区NOA等高阶智能驾驶功能,对于芯片的AI算力需求也在逐渐增加,有效AI算力可能至少需要在200TOPS,同时还需要满足座舱内影音娱乐所需要的强大的渲染能力和通用算力需求,因此对于GPU和CPU的算力资源也必然会有较大的需求。
  • 具备较为丰富的外设接口:之前座舱和智驾SoC芯片分别对应有各自独立的外设接口,现在两者进行整合后,相当于要在这一颗芯片上预留好之前所有的接口。比如,CES 2024 上,畅行智驾正式推出了面向中央计算的单SOC 舱驾融合域控制解决方案“RazorDCX Tarkine”。面向自动驾驶,其支持11V5R12USS接入,预留12路CAN/CANFD 接口,并提供8路车规级以太网接口;面向座舱,支持多屏互动、音频放大器、车载音频总线(A2B)以及面向媒体的系统传输总线(MOST)接口与连接。

总之,实现高阶的单SoC舱驾一体方案,对SoC芯片的要求会更高:需要在设计芯片时,就能规划好座舱和智驾对CPU、GPU及NPU等各种算力的类型的需求,并在可行的工艺制程下,全面灵活地实现性能、功耗和成本之间的最佳平衡。

三、如何才算一款“好用”的车载AI芯片?

如何去判断一款车载AI芯片是否好用呢?可以从以下几个维度去观察:

  • 芯片的软件生态如何,它决定了客户在上面所要耗费的时间成本和开发成本;
  • 芯片的适配性如何,俗话说“好马配好鞍,好船配好帆”。双方只有相互适配才能发挥最大“价值”;
  • AI芯片的平台化设计如何,AI芯片发展成熟到一定阶段,平台化设计是企业降本增效最有效的“武器”。

1)车载AI芯片的软件生态

“软件生态决定芯片价值”,已经成为了芯片行业的共识。因为构建在芯片之上的软件生态对芯片的“可用性”具有较大的影响。如果一家AI芯片企业具备软件生态优势,意味着客户在其芯片上面做开发,开发周期更短,开发成本更低。

AI开发套件是软件生态里比较重要的一部分,通常包括算子库、AI工具链等。什么样的芯片才算是“好用”的芯片?一般来讲, 首先,算子库丰富;其次,工具链好用。奕行智能刘珲认为:“工具链好用表现在两个方面:第一,编译部署的时候,要能够把客户需要的算子都能署下去,不但能支持,并且性能还要好。第二,不但基础设施要好,而且在基础设施之上的那些管理调度系统也需要做好,这是软硬结合的过程。

“另外,奕行智能自主研发的AI计算架构把RISC-V和DSA结合起来,解决了在传统AI加速器上所面临的通用性和专用性的矛盾问题。基于软硬结合的前瞻理念,我们看到AI编译技术对大模型在端侧落地这件事上的重要性。奕行智能采用了多层次AI编译器,我们通过一个著名模型——屋顶线模型(Roofline model),利用硬件微架构与软件编译器协同设计,把应用程序从Memory Bound转变成Computer Bound,以此来提高计算效率。”

那么,一个良好的车载智能计算芯片软件生态应具有哪些特点呢?徐晓煜总结为以下两点:

  • 易用性——软件生态要能支撑好合作伙伴和客户的开发所需,应用文档要充分完善,参考设计和代码丰富准确,有相应的社区或者足够详细的指导文档能帮助用户自行快速上手。最大限度的降低用户的学习成本和业务的迁徙代价。
  • 兼容性——需要一个长期稳定的软件框架和接口,能够尽可能的做到向下兼容,帮助用户的存量代码的价值在后续芯片的升级时也能得到继承。

2)车载AI芯片的适配性

主机厂或域控制器Tier1在选择一款主控SoC芯片时,通常会参考的指标包括:能效比、AI算力和效率、车规级安全认证、解决方案的灵活性和全面性、芯片适配性等多方面指标。其中,AI芯片的适配性是关系到芯片是否“好用”的一项关键指标。

整体来讲,车载AI芯片的适配性可以从硬件、软件以及通讯三个层面去考察。在硬件层面,芯片的适配性包括传感器的适配,配套外围电路的适配,例如存储芯片(如LPDDR、NOR Flash)、通信芯片(如以太网交换芯片)、音视频数据接口以及相关处理芯片(如解串行芯片)等等;软件层面,芯片的适配性包括与底软、中间件以及上层算法层面的适配;通讯层面,主要是芯片与总线的适配,涉及到CAN、以太网等总线,即芯片和其它组件的之间的通信和数据交换是否适配。

安霸半导体孙鲁毅认为,芯片的适配性要看客户的定义,而不是芯片厂商自己来定义。泛泛来讲,芯片的适配性好不仅意味着整个系统方案的性能达标,而且硬件的支持、兼容性以及软件的成熟度等各方面也要高度适配。比如软件驱动如果存在bug或者对某特定硬件不适配,可能导致相应硬件的功能或者性能发挥不出来,或者有偶发的故障,这些都是“不适配”的表现。

总之,芯片的适配性好可以理解为它可以使得产品达到预期的功能。不仅要看它与硬件之间的关联,还要看与软件之间的关联,最终的判断依据是芯片跟其它系统组件是否能够很好地协作并达到预设的目标。

3)车载AI芯片的平台化设计

芯片厂商发展到一定阶段,在充分了解主机厂的需求后,为了降本增效以进一步提升产品的核心竞争力,必然会去打造并沉淀出自己的平台化方案,用平台化的方案去适配和兼容客户的差异化需求。比如,地平线的征程6系列以及安霸的CV3系列等。

某域控制器Tier1硬件平台专家曾对外透露,他们最开始是用不同的SoC和MCU芯片去为各家主机厂服务。但经过一两个项目,他们发现每家主机厂的需求都不一样,用不同的芯片去匹配,研发成本太高。后来,他们干脆就深入研究一个系列的SoC芯片,用他们去灵活匹配不同主机厂的项目,即使个别项目拿不下或者不赚钱,但整体来看,他们收益大大增加,成本也趋向最小化,并且在行业内还形成了自己的口碑。

这个案例间接说明,是否具备较好的平台化设计方案,在后期也将是芯片厂商的核心竞争力之一。

在最近一次地平线征程6技术开放日活动中,在被问到征程6系列的芯片是如何做平台化设计的时候,地平线芯片产品规划与市场总经理尹凌冰回答说:“面向从低到高的全阶智能驾驶场景,征程6基于统一芯片设计理念进行平台化设计,秉持同代一致、代际兼容、高度集成、系统最优(DTCO,STCO)等理念,使其具备统一的软硬件技术特性,包括统一硬件架构、统一工具链和统一软件栈,进而提供平台化的系列计算方案,助力客户降本增效,缩短智驾系统开发周期,打造系统成本更优的智能驾驶方案。”

image.png
地平线征程6系列芯片平台化设计(图片来源:地平线)

结语:

站在主机厂或者域控Tier1的角度,他们对芯片厂商的核心诉求是什么?回归到商业的本质,总结起来就三个字:“性价比”。目前,芯片公司亟需解决的最痛点问题就是如何从客户的整体方案和业务角度考虑,帮助客户降低成本的同时还能提高性能,从而创造更高价值。

简单来说,主机厂对于芯片产品的诉求,就是“既好又便宜”。对于客户这样的诉求,爱芯元智刘建伟举例说到:“如何评价一个处理器?我们给客户推荐用的是‘FPS/$’。对于客户来讲, 最关心的是花了多少钱,达到了怎样的性能。

“我们现在希望站在客户的角度,去卷 FPS/$。卷到足够好用,那用得人就足够多。‘FPS/$’这个评价标准包含两层含义:第一,显性成本,这个大家能直观感受到,买芯片花多少钱,功耗多少,为此需要增加多少散热成本等等,比如我们的M76芯片,可支持高速NOA功能,用自然散热的方式即可,可用于搭载在10~15万的燃油车上。第二,隐性成本。如果我们IP的软件足够成熟,对客户来讲,可以大大降低人力成本的投入,同时还能大幅缩短开发周期。”

总之,随着Transformer等新的算法模型引入到车端,以及EE架构不断向前推进,车载AI芯片正在掀起一轮新的竞争范式。一款车载AI芯片最终能否上车,什么时候上车,以及上车后能否被大规模推广应用,既是技术和市场双轮共同驱动的结果,也是由算力、功耗、成本、易用性和兼容性等多个维度因素综合平衡后的结果。

参考文章:

  1. IC Nansha特别报道 | 奕行智能CEO刘珲:对乘用车ADAS芯片的几点思考
  2. 集微网对话奕行智能刘珲(Kenn Liu):智能汽车计算芯片重构的一些思考
  3. NPU--AI计算的“通用处理器”设计思考
  4. BEV+Transformer对无人驾驶硬件体系的巨大改变
  5. “舱驾融合”技术发展趋势分析
  6. 《车载智能计算芯片白皮书(2023)》
  7. https://mp.weixin.qq.com/s/-Xx-NAJpxrpm4amvSnW_-Q
  8. 《中国智能汽车车载计算芯片产业报告》
  9. https://mp.weixin.qq.com/s/YRaGUP90Pe_MNK--waV2uQ
  10. 2万字长文说清关于“智能驾驶如何做好差异化”的10个问题
  11. https://mp.weixin.qq.com/s/FFQZijBs-q-BI8zRJGrLVg
作者:陈康成
文章来源:焉知汽车

推荐阅读

更多汽车电子干货请关注汽车电子与软件专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
5726
内容数
471
汽车电子与软件行业的相关技术报道及解读。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息