L3、大模型、还是舱驾一体？| 自动驾驶域控制器的来龙去脉（2024版）

本文约8,000字，建议收藏阅读

去年上海车展回来写了《自动驾驶域控制器的来龙去脉2023》，没想到这篇文章居然有四、五万的点击量，也从侧面说明智能驾驶行业确实非常火热。今年本来北京车展完了就要更新的，但囿于琐事一直拖更到现在，实在是抱歉。今年我们继续讨论域控以及三个行业趋势：L3、大模型和舱驾一体，最后我们再简单聊聊车路协同。

01 行业大势：快速出清、头部聚集

去年域控制器的方案可谓是百花齐放，我在写上一篇文章（《自2023》）的时候也以为域控制器和芯片行业会出现极大繁荣，不想仅仅一年以后，行业就快速收敛，绝大多数智驾域控方案都惨淡收场，并快速筛选出了行业龙头。按照前文的逻辑，自动驾驶域控的核心是智驾芯片。我们先来看看2023年智驾芯片的表现：

从2023年的数据可以看出，在国内智驾域控芯片领域，特斯拉和英伟达还是处于一骑绝尘的位置。

比较尴尬的是地平线。征程5 (J5)虽然位列第三，但出货量只有英伟达Orin-X的不到五分之一 (200,087颗 vs 1,095,019颗)。另外J5基本依靠理想L7、L8两款车出货（L6 24年第二季度才上市），其他押宝J5的方案商算是赔了个底儿掉，保护费交了不少，钱可是一分没挣到啊。另外，征程3 (J3)出货量也出乎意料的不尽人意。地平线目前只有征程2 (J2)，既可做前视一体机、也可以用在座舱监测（DMS）系统中，出货量稳定，可以说是地平线目前唯一一颗商业上取得了成功的芯片。

Mobileye凭借EQ4和EQ5，目前也是中国市场主流的智驾芯片和解决方案供应商。但未来不出意外的话，基本上会是一个逐渐出清的状态。

上图没有列出被寄予厚望的黑芝麻。按照黑芝麻自己的说法，截至2023年12月，所有芯片一共卖了15.2万片。目前A1000芯片在各个项目上终于都能用了，也许从下半年开始出货量会逐渐赶上来？

最后，回顾一下我在《自2023》里放的芯片列表在2024年的样子：

红线划掉的芯片要么已经噶了（比如寒武纪），要么没有量，要么已经不是厂商主推方案，所以不用太关注了。哎，这个行业就是这么残酷。

另外，在域控层面，多SoC混搭，比如“J3搭配TDA4”等等这种方案，今年也没打出什么水花。主流车企和Tier1的域控方案还是以单颗或者多颗同型号SoC搭配（比如大疆的双TDA4、理想的双Orin等等）为主。

伴随芯片表现的逐步明晰，智驾供应商也快速向头部聚集，也就筛选出了业界公认的四强，即地平线、大疆、华为、Momenta。

那么，2024年自动驾驶域控制器有哪些发展方向呢？

02 域控支持量产L3自动驾驶？

在国内实现L3自动驾驶一直都是车圈很热的一个方向，2023年11月四部委联合发布了《关于开展智能网联汽车准入和上路通行试点工作的通知》，被认为是国家希望推动L3加速落地的一个信号。2024年6月4日工信部网站发布《四部门有序开展智能网联汽车准入和上路通行试点》的通知，确定9家首批智能网联汽车准入和上路通行试点联合体，更是掀起新一轮热度。

不过从使用主体可以很明显看出，第二个试点通知本意绝不是支持OEM做L3量产的，而是让车厂和出行服务商一起，搞类似最近大火的苕萝卜之类这种L4 Robotaxi。

事实上，中国尚未进行L3自动驾驶立法。全世界目前也仅有欧盟UNECE WP.29 R157一个L3自动驾驶法规，戴姆勒即依据R157搞了Drive Pilot这个L3自动驾驶功能，并在德国和美国上线，正式宣称“管撞也管赔”——即承诺Drive Pilot自动驾驶期间发生车祸由戴姆勒负全责。R157最初把最高时速限制在60km/h，目前已经拓展到了130km/h。

但是！R157规定从“自动驾驶状态”切换到“人工驾驶状态”的切换时间是多久呢？10秒！

也就是说，你的宝贝奔驰正在以130km/h的时速自动驾驶，而你正吃着火锅唱着歌，突然自动驾驶系统故障将要退出，你只有10秒钟时间放下手里的事情，观察路面并接管飞驰的车辆。

为了写这篇文章，我把R157修正附件的原文又看了一遍，还是10秒没变。戴姆勒Drive Pilot官方操作手册，也注明了驾驶员要在10秒内接管系统。但我一直坚持一个观点：10秒钟的接管时间是远远不够、也不安全的，目前这个设定只是对现有技术水平和电子电气架构的妥协。

在功能层面，L3与L2最大的区别是系统故障以后，自动驾驶域控制器还能控制汽车继续安全行驶，为驾驶员接管争取时间。这种“带故障运行”的状态（上图中的黄色状态）即是功能安全里常说的“Fail-Operational”即“失效可工作”。带故障运行的最大时间就是留给驾驶员的接管时间。

车辆要实现“Fail-Operational”，首先要在整车电子电气架构上做充足的冗余设计。如下图所示，常见的冗余包括冗余供电、冗余通信总线、传感器冗余、驱动冗余、6相/12相转向电机、制动执行器备份（例如iBooster+ESP或者IPB+RBU）等等，光在域控制器层面设计冗余是没用的。

自动驾驶域控制器要支持L3，最直接的方式也是备份。其实业界在这方面的研究由来已久。比如像下图所示，域控通过板载多颗Safety MCU来实现规划与控制算法在物理资源上的冗余；最近还有一些供应商提出，在做感知和规划的SoC里按流水线，精细区分不同核心完成不同任务，并把核间通信的数据备份存储起来。这样万一传感器或者哪个核挂了，至少流水线后面的核能利用前一级所备份的数据继续计算一段时间。

那么回到主题。即便不计投入做到了所有这些，戴姆勒也只能提供10秒的接管时间，技术上还很有待完善。考虑到国内造车成本已经卷到极致，在没有明确利益的驱使下，国内OEM是不会盲目提升成本量产L3系统的。更何况“人机共驾”显著难于纯自动驾驶是业界共识，L3本身就还有极多应用场景和交互方面的问题需要推敲，离真正成熟还很远。

总而言之，2024年以及未来的一两年内，域控制器支持L3自动驾驶量产落地，不是主流的发展的方向。

03 端到端大模型智能驾驶上车

如今应该没有哪个概念比“大模型”更火热了，火到无论做什么事，不扯两句大模型都会显得自己与时代脱节。拜特斯拉所赐，“端到端大模型”在智能驾驶中的应用在今年（2024）受到了以理想、蔚来、商汤、元戎为代表的各色公司的大力追捧。

我们先复习一下。传统自动驾驶软件可分为感知（Perception）、建图定位(Localization)、规划（Planning）和控制（Control）几大模块。出于自身算法特点以及对功能安全的要求，一般“感知”、“建图定位”运行在SoC（ARM A核）中，“控制”运行在MCU（ARM R或M核）中，而“规划”模块根据算法和计算资源的不同，可以灵活部署。

而所谓“端到端”，是指自动驾驶系统像人脑一样，以传感器原始数据为输入，只经过一个模型，就能生成对汽车执行器的具体指令、内部不再拆分成不同的模块，可以作为一个整体来进行训练和优化，以达到信息无损传递、决策全局最优、系统延时最小，同时系统框架复杂度显著下降、代码量显著降低。

其实端到端也不是什么新东西。早在2016年，英伟达就发表过一篇名为"_End-to-End Deep Learning for self-driving cars_"的文章,讨论了端到端模型应用的可能性。只是近年来由于特斯拉的自动驾驶技术路线，从HydraNet 到 BEV+Transformer，再到占用网络Occupancy Network，都一贯的正确且高效，使业界多少有了些“特斯拉迷信”。鉴于今年特斯拉“宣称”FSD V12应用了端到端大模型, 自然就引领了业界的端到端潮流。

那么端到端大模型是怎么从demo一路演进到真正上车的呢？特斯拉并没有发布自己端到端大模型的技术细节，我借用非常有代表性的理想的大模型PPT来说明一下。

可以看出，理想把第一代系统分成了感知、定位、规划、导航、NPN(Neural Prior Net, 先验神经网络)，以及没画进来的控制等部分。这是一种去高精地图的自动驾驶算法框架，但大模型还没有应用进来。

用NPN来替代高精地图，这其实非常像特斯拉“众包采图”的路子。具体方法如下图示，通过车辆传感器事先多次采集道路信息（多次，所以更完整、无遮挡），再通过神经网络提取出隐性的道路特征中间值（下图中的Road Features)，并保存起来作为先验信息。等下次车辆再通过同一路段时，把这些先验信息和传感器实时采集的道路信息，以及导航高辅地图做比对，一起参与到BEV构建和规划计算中，最终得到精确的结果。

这个方法的本质是把自车当作地图测量车了。但是由于测量的只是道路特征值（还是隐性的）而不违反《测绘法》。

理想PPT里的第二个阶段，也是目前大部分声称搞“端到端”的公司所处的阶段，是“两段式”大模型。即感知是一个模型，提供结构化输出；规划部分由原来的“基于规则”演进到“基于数据训练”的大模型，最终的输出是行驶路径，再通过传统的控制算法（PID、MPC等等）变成执行器控制指令。

在我看来“两段式”大模型是一种“伪大模型”。简单而言两个模型在数据传输过程中自然就会发生信息丢失，数据存储也会产生较大冗余，而且无法联合训练、联合优化，没有真正发挥大模型的优势。

现在一些车企宣称在单Orin的域控上就能部署这种两段式大模型，如果实车效果确实不错的话，倒是能极大促进大模型上车。

第三个阶段，是单一大模型，也就是把感知模型和规划模型合二为一，由传感器原始输入直接生成行驶路径。这是一种能够最大化挖掘大模型潜力的方式，但也对域控上芯片的算力有更高的要求。单一大模型的上车，可能会触发域控的更新换代。

按照马斯克的定义，理想展示的这种单一大模型，都还不算是端到端，因为它的输出是路径，而不是执行器指令。不过我觉得也没必要较这个真儿，自动驾驶的瓶颈早就不是控制了，只要规划的行驶路径正确，用经典方法可以丝滑转化成执行器指令，不一定非得为了“端到端”而“端到端”。再说了，也得给广大规控工程师们留口饭吃，别赶尽杀绝啊！

其实，业界也在怀疑特斯拉有没有真的实现“端到端”，毕竟马斯克放嘴炮也不是一次两次了。下图是特斯拉在2023年CVPR会议上展示的大模型材料，前一页（图14）和2022年AI Day上展示占用网络时几乎是一样的，只是特斯拉强调现在用了一个统一的向量空间，或者说大模型，取代了原来复杂的内部架构（图15），直接输出交通参与者目标、信号灯和路面坡度等信息。

这种做法显然与马斯克说的从“传感器原始数据”到“执行器指令”的“端到端”有出入。还是希望特斯拉能早日再搞个AI Day活动来详细解答一下吧。

前阵子蔚来的发布会上提出了“世界模型”，被普遍认为是端到端自动驾驶的终局形态。世界模型的构建意味着AI能够真正的“理解”车辆运行的周围环境，理解一切行为的规则和因果，能够在不经训练的情况下推理做出正确的决策。世界模型的真正成熟应用还有很长的路要走。

为了支持大模型在域控上部署，芯片厂商也在开发相应的产品。大家听到较多的英伟达Thor芯片，集成的Blackwell GPU架构在设计时就考虑了对部署大模型的支持，同时Thor本身算力也比较强大，未来可能会成为端到端智能驾驶域控的主力芯片。

一些二线厂商，比如安霸（Ambarella），也推出了基于CV3-HD架构的N1系列芯片，支持部署多模态大模型，这次北京车展上做了展示。不过N1不是车规芯片，真要上车的路还很长。

智驾端到端大模型能否最终上车，是一件关乎智驾行业大洗牌的事。大模型的训练需要巨量算力和成本支撑，每年的花销数以亿计，绝不是中小公司能承担的。如果端到端智驾最终被证明可行，那么行业就会快速向几个算力寡头聚拢，同时对工程师的技术栈要求也会剧烈变化（比如感知融合、规控这些工程师的需求量会急剧下降），域控的形态、甚至整车电子电气的形态都会因之改变。

但是目前来看，端到端智驾也可能是一件“望山跑死马”的事：投入很大、硬件成本很高，最终的效果却可能与传统智驾算法差不多。而且，从制造噱头的角度，只要智驾算法里用到了大模型——比如“两段式大模型”——你也可以宣称自己是端到端。可能一年以后，所有公司的算法都宣称是“端到端”了，但真实情况如何，只有他们自己知道。

另一方面，安全性和可靠性也是挡在端到端智驾的一座大山。理想在单一大模型之外，还搞了VLM第二系统，这是否有效有待验证；大模型的计算过程是隐式的，不可解释也不可测，如何满足功能安全同样是个大问题。这一切都要留待实车表现去回答。

总而言之，未来两年自动驾驶域控支持端到端大模型，会是一个方向，但是存在一定不确定性。

04 域控支持舱驾一体

2024年智驾域控另一个演进的重要方向是“舱驾一体”，也就是在一个控制器上，既实现智能驾驶功能、又实现智能座舱功能。它的本质是提高软硬件模块的复用性、整体降本。为了实现这些功能，控制器必须同时具备座舱图像处理所需要的大GPU算力和智驾需要的大NPU算力，同时还要保证充足的CPU计算资源，以及足够的网关接口，着实有点“既要又要”的意思。

具体实现而言，域控舱驾一体又分为两个阶段：

1. One Box，Two Boards （2019-2023）

顾名思义，这种舱驾一体架构是在一个控制器（中央域控）中集成一张智驾计算板（PCBA）和一张座舱计算板。典型例子是特斯拉 HW3.0和HW4.0 。从下图可看出，HW3.0域控的上层是以AMD Ryzen CPU和AMD Radeon GPU为核心的座舱PCBA（图中的Infotainment ECU，满足座舱控制和图像处理GPU算力需求），下层是以智驾芯片FSD为核心的智驾PCBA（图中的Autopilot ECU，满足NPU算力需求），他们共用了一套液冷系统。

（HW3.0中GPU是以模组小板的形式出现的，到了HW4.0中才真正和智驾PCBA融合在一张板上。）

除了特斯拉，小鹏XEEA3.5架构下的中央计算单元也采用了舱驾一体布局，并且更进一步，把智驾和座舱芯片集成到了一张板上，大幅提高了集成度。其他厂商包括德赛西威、零束科技、亿咖通等也有相应的规划和产品落地。

2. One Box，One Chip （2024 - ）

进入2024年，迫于进一步降本的压力，舱驾一体开始快速向着“一片SoC同时实现座舱和智驾”的方向落地。代表性的SoC包括英伟达Drive Thor，高通Snapdragon Ride Flex平台的首款芯片SA8775以及黑芝麻“武当”C1200系列芯片。

部分舱驾一体SoC一览：

以上几款芯片目前都有较明确的上车量产计划，但展现的思路却不尽相同。行业老大英伟达更倾向于“一步到位”，真正意义上使用一片芯片完成“座舱+高阶智驾的所有功能”，而高通和黑芝麻则选择“小步快跑”，从“座舱+一部分智驾功能”入局。

前面提到了，舱驾一体的主要收益是降本，但面临的问题也是突出的：

首先是舱驾融合使软件整合复杂度显著上升。以黑芝麻/均联智行展示的C1296开发工具链为例，整个软件系统要控制多个隔离的MPU、实时MCU、网关、安全岛，通过虚拟化来部署不同的操作系统等，核间通信是很大的挑战，整体稳定性和实时性如何保证也是个难题。另一方面，目前车企的人力组织架构普遍也是舱、驾分离的，部门墙必然会对舱驾一体产生阻力。舱驾一体的推进意味着组织架构也要进行调整，而这往往会比技术挑战更难以解决。

从目前市场情况来看，竞争日趋白热化，降本还是压倒一切的首要任务。所以各个车企都对舱驾一体趋之若鹜。已官宣未来车型将使用Thor的车企包括理想、比亚迪、小米、百度（极越）、广汽（昊铂）、吉利（极氪）、长安、长城、小鹏，Tier1包括德赛、联想等等；高通SA8775的合作方也很多，OEM包括哪吒，Tier 1涵盖中科创达、车联天下、博世、航盛、华阳、大疆、镁佳等等。除此之外开展舱驾一体预研项目的车企就更多了。

组织架构方面，比亚迪被曝今年成立智能化技术研究院整合座舱和智驾研发，而博世在更早就布局了座舱和智驾的研发力量整合。相信未来会有更多车企顺应这个潮流。

可以比较确信的说，舱驾一体一定是未来两年域控制器的发展方向。

05 端到端大模型和舱驾一体冲突吗？

先小结一下，从前文的分析来看，未来域控支持端到端大模型可能是个方向，而支持舱驾一体一定是发展方向。那么我们自然会思考：这两个方向互相冲突吗？

目前智驾域控领域经过多年厮杀，已经分化出了三个不同的市场。其实打开地平线的主页，也能看到它分了三个智驾产品线，大致对应了这三个市场。

（但地平线应对不同市场的具体方案，除了J2以外从商业上来说都是失败的。）

这些内容《自2023》里有提到过，再重复一下。智能驾驶主要市场一览：

鉴于端到端大模型高额的训练成本，以及域控本身成本所限，端到端智驾是无法进入中、低算力市场的。而无论高、中、低算力市场，都可以通过舱驾一体的方式来进一步降本。

这就意味着，英伟达选择的“一步到位”模式，既可以支持端到端智驾，又能够实现舱驾一体；而高通和黑芝麻投身的“小步快跑”模式，由于算力的缺失，目前天然就已放弃端到端了。其他“One Box， Two Boards”的舱驾一体方案，由于配置比较灵活，可根据车企的技术路线（是否发展端到端）将不同芯片自由组合。所以从这个意义上来说，端到端大模型智驾和舱驾一体是不冲突的。