AI技术在众多应用中,自动驾驶无疑占据着耀眼的地位。对于AI领域的专业人士来说,自动驾驶不仅是技术巅峰的象征,更是他们追求的梦想,让产学两界的AI从业者心驰神往。
近年来,自动驾驶行业的发展与AI技术的每次进步紧密相连。新的热门概念层出不穷,从依赖高精地图到无需地图导航,从高速公路辅助到城区自动驾驶,从CNN到Transformer,从BEV鸟瞰视角到OCC空间占用网络,再到从模块化到一体化的端到端自动驾驶系统……每一次技术革新,都是学术界突破的成果,也是推动自动驾驶技术不断挑战“无人接管”的动力。
随着芯片性能的增强、算法的成熟、成本的降低以及政策的支持,智能驾驶功能正逐渐成为汽车的标配。L2+级别的智能驾驶功能在新车销量中的占比逐年攀升。“无图”和“全国都能开”已成为新能源汽车和智能驾驶领域的竞争焦点。但实际应用中频繁出现的接管事件和高质量数据积累效率的不足,是自动驾驶技术继续向上突破L3级别,实现“智能驾驶”到“自动驾驶”面临的主要障碍。寻找新的技术解决方案,已成为学术界和产业界的共同目标。
甲子智库之前发表的文章已经概述了AI大模型在自动驾驶领域的应用现状和端到端自动驾驶的概念。本文旨在端到端自动驾驶成为行业共识之前,探讨学术界和产业界在这一技术路线上的探索和实践。
1.自动驾驶系统架构的演化:模型融合与数据驱动
自动驾驶技术的发展,根据AI技术的应用,可以划分为四个关键阶段,体现了数据驱动和模型融合的演进趋势:
AD 1.0:基础模块化自动驾驶,早期依赖规则系统,随着深度学习的进步,部分模块转向数据驱动;
AD 2.0:BEV视角与Transformer模型的融合,实现传感器数据的时序融合,感知和决策模块的局部神经网络化,目标是减少人工编码,提高模型训练的自动化程度;
AD 3.0:端到端的全栈神经网络,整合感知、决策和控制,减少信息传递损失,但存在解释性不足和潜在的幻觉问题;
AD 4.0:引入大型语言模型(LLM)或世界模型,利用丰富的驾驶常识增强推理能力,或通过仿真训练和轨迹预测提升性能。
当前,产业界普遍处于AD 2.0阶段,BEV+Transformer+Occupancy Network成为自动驾驶领域的主流技术选择,智能驾驶功能已经实现规模化部署。而特斯拉在北美推出的FSD V12,以及商汤科技、元戎启行、头部新势力等国内AI企业的端到端自动驾驶产品,显示了从智能驾驶向自动驾驶转变的积极态势。华为和其他新兴汽车制造商也在积极研发,推动决策大模型和全栈神经网络的部署,预示着自动驾驶技术的光明前景。
2.端到端神经网络的训练方法:模仿学习与强化学习
在自动驾驶领域,端到端神经网络的训练方法主要依赖于模仿学习(Imitation Learning,IL)和强化学习(Reinforcement Learning,RL),同时结合其他策略来弥补各自方法的局限性。
学术界与产业界在端到端自动驾驶技术方面的gap正在缩小,学术成果的产业化速度也在加快。一些在学术界表现出色的端到端技术,在产业界的工程师人才、算力和大规模数据支持下,已经能够与传统的模块化自动驾驶技术相媲美。
然而,正如甲子智库之前文章所指出的,端到端自动驾驶技术目前仍面临诸多挑战,包括解释性不足、高算力需求和对高质量数据集的依赖。AI领域的专家们正在探索新的解决方案。未来端到端技术实现真正自动驾驶的可能途径包括:
零样本/少样本学习:针对自动驾驶系统在实际运行中可能遇到的未知场景,零样本或少样本学习方法将更符合系统的需求;
模块化端到端规划:通过优化多个模块并优先考虑下游规划任务,提高系统的整体性能;
数据引擎:数据自动标注的pipeline能够显著加快模型的迭代速度。在大模型的辅助下,可以简化高质量感知标签的自动注释过程,甚至支持挖掘和编辑corner case,进一步优化数据驱动模式,增强模型的泛化能力;
V2X技术:车路协同或V2X技术从另一角度补充了单车自动驾驶的不足,这需要道路交通行业的整体协同发展,提高道路智慧化和车联网运营的能力。
基础模型:将大型语言模型(LLM)或多模态模型应用于自动驾驶系统的推理能力建设,赋予系统理解和推理能力,使自动驾驶车辆能够真正理解周围环境,并对其输出结果进行解释,增强其可解释性。
这些方法和技术的探索和应用,将有助于推动自动驾驶技术向更高级别的自动化和智能化发展。
3.基础模型:不同种类模型对自动驾驶的多样化赋能
在自动驾驶系统的构建过程中,大模型或基础模型(Foundation Models)在多个功能层面提供了显著的赋能作用。其中,大语言模型能够在规划与推理、车辆驾驶常识、用户交互层面赋能;大视觉模型能够在3D目标检测、仿真、测试等环节提供助力;多模态大模型则能够全面赋能自动驾驶系统的视觉理解与空间推理,并全面提升感知与预测能力。以下是各类模型在自动驾驶领域的应用概述:
大语言模型(LLM)
推理和规划:LLM利用其在逻辑推理、代码生成和翻译方面的专长,为自动驾驶的路径规划和决策制定提供支持;
用户交互:通过理解自然语言并执行用户指令,LLM使智能驾驶系统更加用户友好,实现个性化体验;
常识性驾驶知识:LLM的预训练能力使其能够理解和应用驾驶常识,可能替代传统的基于规则的系统。
大视觉模型(VFM)
目标检测和跟踪:VFM在物体检测和分割方面的能力,对于自动驾驶的感知系统至关重要,特别是在3D目标的识别和追踪方面;
仿真和测试:VFM的视频生成能力,为创建逼真的驾驶场景提供了支持,这对于自动驾驶系统的安全性和可靠性测试至关重要。
多模态大模型(MFM)
视觉理解与空间推理:MFM结合了视觉和语言信息,展现出卓越的视觉理解和空间推理能力,对自动驾驶系统的决策过程至关重要;
综合感知与预测:MFM通过整合视觉和语言数据,提高了对环境的感知精度和对其他交通参与者行为的预测准确性。
这些模型的应用不仅能够提升自动驾驶系统的性能与可靠性,还能进一步增强其对复杂环境的适应性和对用户需求的响应能力。随着技术的不断进步,这些模型有望在未来的自动驾驶领域发挥更大的作用,推动自动驾驶技术向更高水平发展。
在自动驾驶的征途上,AI技术的每一次飞跃都为这一领域注入了新的活力,自动驾驶也正逐步从梦想走向现实。尽管面临解释性、算力需求和数据质量的挑战,但学术界与产业界的紧密合作,以及零样本学习、模块化规划、数据引擎和V2X技术的探索,正逐步克服这些障碍。特别是大模型的多样化赋能,无论是在规划推理、用户交互,还是在3D目标检测、仿真测试,以及视觉理解与空间推理方面,都有望显著提升自动驾驶系统的性能和适应性。
随着技术的持续进步和创新,自动驾驶的前景日益明朗。大模型作为变革的驱动力,将在推动智能交通系统向更高智能、安全性和效率的方向发展中扮演关键角色。