AI大模型在自动驾驶领域的应用探讨（2）

甲子智库在上一篇关于自动驾驶的文章中，简述了AI大模型技术在自动驾驶系统研发过程中的应用价值和重要性，并提到了特斯拉FSD V12带起的热门概念“端到端自动驾驶”。

北京国际汽车展览会也印证了这一点：商汤科技、元戎启行等国内AI企业的端到端智能驾驶量产方案在车展亮相，“大模型上车”成为热议话题。元戎启行展出了基于端到端模型的量产智能驾驶方案DeepRoute IO，商汤绝影也在现场展示了面向量产的端到端自动驾驶解决方案 UniAD (Unified Autonomous Driving) 的道路测试表现。

本文将主要探讨端到端自动驾驶的概念、优势，以及未来发展面临的挑战。

从高精地图到无图的“全国都能开”，从高速NOA到城区NOA，L2++级别的自动驾驶功能已经量产上车投入规模化使用，冲击着L3的界限。但如何从L2++真的跨越到L3/L4，始终是横亘在自动驾驶从业者面前的难题。

在ChatGPT的成功之后，由“大算力+大模型+大数据”驱动创造的“智能涌现”，为自动驾驶带来了新的路径选择。

现阶段已经上车的智能驾驶产品，绝大多数采用了“感知-预测-规划-控制”串联的模块化架构。摄像头、雷达、IMU、激光雷达等传感器采集到的信息先交由感知/预测模块进行空间感知计算；感知模型输出结果后，再交由基于规则的规划模块，进行相应的决策与路径规划；控制模块根据决策规划的结果，最终生成车辆转向角、制动力、油门/电门等动作。

而端到端架构则有所不同，比模块化的系统架构更加简单。狭义的端到端模型并不拆分感知、预测、规划、控制等模块。相反地，端到端模型是一体化的，传感器信号作为模型的输入，输出则直接是用于车辆执行器的加减速与转向的指令。

从开发的角度来看，“端到端”概念的引入是革命性的，尤其对于规划/决策模块而言。主流规划方案仍然基于手写规则，非常依赖设计好的先验规则与传统算法的优劣，遇到bad case时需要继续添加规则、打补丁以实现模型调优。

相比之下，没有进行任务切分的端到端自动驾驶则摒弃了传统自动驾驶中感知、预测、规划、控制各大模块及各类子任务，能够实现输入传感器数据可直接输出车辆动作控制。

整体来看，端到端的优点包括但不限于：

数据驱动：用于模型训练的数据规模与质量将是影响产品性能的主要因子，仅需要少量的人工编码。通过扩大优质训练数据的规模，可以不断提升系统的能力上限，并通过数据驱动的方式不断响应长尾场景下的数据回传，更新模型参数，消除/降低对人工编码的需求。

整体最优：端到端旨在服务整体目标，而不是每个模块单独一个目标，实现“老司机”般丝滑的驾驶体验。

消除误差：一体化的模型结构可以减少各模块之间信息传递的延迟，且全栈神经网络的上下层之间可以传递全量的信息，消除累计误差，让自动驾驶系统反应更加敏捷和准确。

端到端方案的优势已经显现，大模型的加速渗透让自动驾驶的继续进步看到了一条更高效的路径。那么端到端是自动驾驶走向下一阶段的必选之路吗？

端到端自动驾驶系统的研发存在着多重挑战。

首先，端到端自动驾驶存在模型的弱解释性/不可解释性，这对于强调安全底线的自动驾驶是需要解决的问题。端到端系统遇到问题后，无法像模块化系统可以逐步分析中间的输出结果，难以找到出问题的具体节点。大模型是大算力与海量数据的暴力美学，在文本生成、图像生成等场景失效成本很低，但自动驾驶的失效成本是非常高昂的。这是端到端系统想要通过验证测试，进而产业化的难点。

其次，类似大语言模型，端到端自动驾驶大模型其实是对海量驾驶视频片段的压缩和升华，需要极大规模的高质量数据。以特斯拉FSD V12为例，相当于是把千万个视频片段给神经网络去学习。这意味着端到端自动驾驶需要大量的、优质的驾驶视频片段进行训练。数据采集的难点是一方面，如何在海量片段中清洗和选择高质量的数据是更难的另一个方面。

最后，大模型的训练也是一笔极大的投入。在采集高质量视频数据的同时，也需要加大对算力投入。马斯克曾表示特斯拉的训练算力要在2024年底提升到100EFLOPS这一惊人的数字。对于国内厂商而言，算力储备难的问题将更加凸显。

在自动驾驶的征途上，端到端技术以其革命性的理念，正逐渐揭开智能驾驶的新篇章。尽管路途中仍然有着重重难关，但技术的突破和产业的协同，无疑将为这一领域注入源源不断的动力。

推荐阅读

目录