AI大模型在自动驾驶领域的应用探讨（3）

AI技术在众多应用中，自动驾驶无疑占据着耀眼的地位。对于AI领域的专业人士来说，自动驾驶不仅是技术巅峰的象征，更是他们追求的梦想，让产学两界的AI从业者心驰神往。

近年来，自动驾驶行业的发展与AI技术的每次进步紧密相连。新的热门概念层出不穷，从依赖高精地图到无需地图导航，从高速公路辅助到城区自动驾驶，从CNN到Transformer，从BEV鸟瞰视角到OCC空间占用网络，再到从模块化到一体化的端到端自动驾驶系统……每一次技术革新，都是学术界突破的成果，也是推动自动驾驶技术不断挑战“无人接管”的动力。

随着芯片性能的增强、算法的成熟、成本的降低以及政策的支持，智能驾驶功能正逐渐成为汽车的标配。L2+级别的智能驾驶功能在新车销量中的占比逐年攀升。“无图”和“全国都能开”已成为新能源汽车和智能驾驶领域的竞争焦点。但实际应用中频繁出现的接管事件和高质量数据积累效率的不足，是自动驾驶技术继续向上突破L3级别，实现“智能驾驶”到“自动驾驶”面临的主要障碍。寻找新的技术解决方案，已成为学术界和产业界的共同目标。

甲子智库之前发表的文章已经概述了AI大模型在自动驾驶领域的应用现状和端到端自动驾驶的概念。本文旨在端到端自动驾驶成为行业共识之前，探讨学术界和产业界在这一技术路线上的探索和实践。

1.自动驾驶系统架构的演化：模型融合与数据驱动

自动驾驶技术的发展，根据AI技术的应用，可以划分为四个关键阶段，体现了数据驱动和模型融合的演进趋势：

AD 1.0：基础模块化自动驾驶，早期依赖规则系统，随着深度学习的进步，部分模块转向数据驱动；

AD 2.0：BEV视角与Transformer模型的融合，实现传感器数据的时序融合，感知和决策模块的局部神经网络化，目标是减少人工编码，提高模型训练的自动化程度；

AD 3.0：端到端的全栈神经网络，整合感知、决策和控制，减少信息传递损失，但存在解释性不足和潜在的幻觉问题；

AD 4.0：引入大型语言模型(LLM)或世界模型，利用丰富的驾驶常识增强推理能力，或通过仿真训练和轨迹预测提升性能。

当前，产业界普遍处于AD 2.0阶段，BEV+Transformer+Occupancy Network成为自动驾驶领域的主流技术选择，智能驾驶功能已经实现规模化部署。而特斯拉在北美推出的FSD V12，以及商汤科技、元戎启行、头部新势力等国内AI企业的端到端自动驾驶产品，显示了从智能驾驶向自动驾驶转变的积极态势。华为和其他新兴汽车制造商也在积极研发，推动决策大模型和全栈神经网络的部署，预示着自动驾驶技术的光明前景。

2.端到端神经网络的训练方法：模仿学习与强化学习

在自动驾驶领域，端到端神经网络的训练方法主要依赖于模仿学习（Imitation Learning，IL）和强化学习（Reinforcement Learning，RL），同时结合其他策略来弥补各自方法的局限性。

学术界与产业界在端到端自动驾驶技术方面的gap正在缩小，学术成果的产业化速度也在加快。一些在学术界表现出色的端到端技术，在产业界的工程师人才、算力和大规模数据支持下，已经能够与传统的模块化自动驾驶技术相媲美。

然而，正如甲子智库之前文章所指出的，端到端自动驾驶技术目前仍面临诸多挑战，包括解释性不足、高算力需求和对高质量数据集的依赖。AI领域的专家们正在探索新的解决方案。未来端到端技术实现真正自动驾驶的可能途径包括：

零样本/少样本学习：针对自动驾驶系统在实际运行中可能遇到的未知场景，零样本或少样本学习方法将更符合系统的需求；

模块化端到端规划：通过优化多个模块并优先考虑下游规划任务，提高系统的整体性能；

数据引擎：数据自动标注的pipeline能够显著加快模型的迭代速度。在大模型的辅助下，可以简化高质量感知标签的自动注释过程，甚至支持挖掘和编辑corner case，进一步优化数据驱动模式，增强模型的泛化能力；

V2X技术：车路协同或V2X技术从另一角度补充了单车自动驾驶的不足，这需要道路交通行业的整体协同发展，提高道路智慧化和车联网运营的能力。

基础模型：将大型语言模型（LLM）或多模态模型应用于自动驾驶系统的推理能力建设，赋予系统理解和推理能力，使自动驾驶车辆能够真正理解周围环境，并对其输出结果进行解释，增强其可解释性。

这些方法和技术的探索和应用，将有助于推动自动驾驶技术向更高级别的自动化和智能化发展。

3.基础模型：不同种类模型对自动驾驶的多样化赋能

在自动驾驶系统的构建过程中，大模型或基础模型（Foundation Models）在多个功能层面提供了显著的赋能作用。其中，大语言模型能够在规划与推理、车辆驾驶常识、用户交互层面赋能；大视觉模型能够在3D目标检测、仿真、测试等环节提供助力；多模态大模型则能够全面赋能自动驾驶系统的视觉理解与空间推理，并全面提升感知与预测能力。以下是各类模型在自动驾驶领域的应用概述：

大语言模型（LLM）

推理和规划：LLM利用其在逻辑推理、代码生成和翻译方面的专长，为自动驾驶的路径规划和决策制定提供支持；

用户交互：通过理解自然语言并执行用户指令，LLM使智能驾驶系统更加用户友好，实现个性化体验；

常识性驾驶知识：LLM的预训练能力使其能够理解和应用驾驶常识，可能替代传统的基于规则的系统。

大视觉模型（VFM）

目标检测和跟踪：VFM在物体检测和分割方面的能力，对于自动驾驶的感知系统至关重要，特别是在3D目标的识别和追踪方面；

仿真和测试：VFM的视频生成能力，为创建逼真的驾驶场景提供了支持，这对于自动驾驶系统的安全性和可靠性测试至关重要。

多模态大模型（MFM）

视觉理解与空间推理：MFM结合了视觉和语言信息，展现出卓越的视觉理解和空间推理能力，对自动驾驶系统的决策过程至关重要；

综合感知与预测：MFM通过整合视觉和语言数据，提高了对环境的感知精度和对其他交通参与者行为的预测准确性。

这些模型的应用不仅能够提升自动驾驶系统的性能与可靠性，还能进一步增强其对复杂环境的适应性和对用户需求的响应能力。随着技术的不断进步，这些模型有望在未来的自动驾驶领域发挥更大的作用，推动自动驾驶技术向更高水平发展。

在自动驾驶的征途上，AI技术的每一次飞跃都为这一领域注入了新的活力，自动驾驶也正逐步从梦想走向现实。尽管面临解释性、算力需求和数据质量的挑战，但学术界与产业界的紧密合作，以及零样本学习、模块化规划、数据引擎和V2X技术的探索，正逐步克服这些障碍。特别是大模型的多样化赋能，无论是在规划推理、用户交互，还是在3D目标检测、仿真测试，以及视觉理解与空间推理方面，都有望显著提升自动驾驶系统的性能和适应性。

随着技术的持续进步和创新，自动驾驶的前景日益明朗。大模型作为变革的驱动力，将在推动智能交通系统向更高智能、安全性和效率的方向发展中扮演关键角色。

1.自动驾驶系统架构的演化：模型融合与数据驱动

2.端到端神经网络的训练方法：模仿学习与强化学习

3.基础模型：不同种类模型对自动驾驶的多样化赋能

推荐阅读

目录