在迈向全自动驾驶的征途上,AI大模型技术正成为推动行业进步的关键动力。
深度学习技术的持续进步已经为自动驾驶感知能力带来了革命性的提升。技术演进的每一步,从卷积神经网络(CNN)到循环神经网络(RNN),再到结合鸟瞰图(BEV)与Transformer的模型,都在提高无人驾驶的准确性和安全性。特别是基于Transformer的BEV感知模型,似乎已经成为业界的共识,不仅加快了自动驾驶技术的发展步伐,也为城市导航辅助系统(NOA)的广泛应用奠定了基础。
在这个由数据主导的新时代,大模型技术的应用正在从云端向车端扩展,涵盖自动数据标注、数据挖掘,乃至车道拓扑预测等多个方面,充分展示了大模型技术在自动驾驶领域的重要影响力。
自动驾驶技术的核心在于其“感知-预测-决策-控制”的模块化结构,其中“感知”是基础模块且至关重要。它确保车辆能够实时、准确地掌握周围环境,是实现安全无人驾驶的关键。
自动驾驶感知技术的发展已经经历了几个关键阶段:
卷积神经网络(CNN):凭借在图像识别上的卓越性能,CNN成为自动驾驶感知的起点,可以有效整合图像与雷达数据,提升对道路和交通元素的识别能力;
循环神经网络(RNN)与生成对抗网络(GAN):RNN擅长处理时间序列数据,而GAN能创造逼真的合成数据,两者结合,增强了自动驾驶系统在行为预测和路径规划方面的能力;
鸟瞰图(BEV):BEV通过将三维数据投影到二维平面,提供了清晰的环境视图,优化了路径规划和避障决策;
BEV与Transformer的结合:BEV+Transformer模型结合了Transformer的序列数据处理能力和BEV的环境概览,实现了更精细的环境理解和更全面的预测能力。此外,特斯拉在2023年进一步推出了占用网络模型,进一步提升了对三维环境的感知精度。
目前,基于Transformer的BEV感知模型已经成为自动驾驶领域的主流技术趋势,它推动了“重感知、轻地图”的技术路径,并加速了城市导航辅助系统(NOA)的量产与规模化应用。
在OpenAI推出ChatGPT之前,Transformer模型已在自动驾驶感知领域得到应用,并随着数据量的激增实现了规模化部署。
自动驾驶中大模型技术的运用可分为云端和车端两大类:
云端:
自动数据标注:通过大模型的自监督预训练,结合少量人工微调,实现视频数据的自动标注,提升标注精度,减少人工复审,大幅提高效率。
数据挖掘:利用大模型的泛化能力,挖掘长尾数据,如CLIP模型通过文本描述进行图像检索。
知识蒸馏:大模型学习丰富特征后,通过知识蒸馏技术传递给小模型,提升后者性能与准确度。
场景重建与数据生成:采用NeRF技术进行场景隐式存储和渲染监督学习,实现场景重建和生成高真实感数据。
车端:
模型合并:整合处理各类子任务的小模型为一个综合性“大模型”,通过联合推理提升感知算法的准确度和响应速度。
物体检测:运用大模型进行固定物体检测,如车道线、交通灯等,其检测性能不受外部条件如天气、时间变化的影响。
车道拓扑预测:基于BEV的feature map,运用自回归编解码网络将BEV特征解码为结构化拓扑点序列,实现车道拓扑的预测。
随着技术进步,大模型在自动驾驶的其他领域也有望得到更深入的开发和应用。
在当前的自动驾驶技术发展中,深度学习方法主要集中在提升“感知”和“预测”两大模块的性能。出于对行车安全的重视,决策模块目前仍然依赖于基于规则的方法。
然而,这种基于规则的决策模型在应对城市复杂交通环境和不断出现的极端情况(corner case)时仍显不足,这导致高级别的自动驾驶在实际运行中难以保证完全不需要人工干预。
随着自动驾驶领域数据量的持续增长,为训练更为先进的决策模型提供了条件。大数据使得模型能够学习更加复杂的特征,从而提高感知的精确度,并使得端到端的自动驾驶模型成为可能。特斯拉在2023年推出的FSD V12系统就是一个端到端自动驾驶系统的实例,国内一些领先的企业也在跟进这一技术的研发与部署。
在未来的端到端自动驾驶系统中,整个驾驶控制流程将被视为一个统一的整体,而非多个独立模块的集合。系统直接从传感器数据(如摄像头、雷达和激光雷达等)中提取信息,并直接输出控制指令,如转向、刹车和加速等。这种端到端的方法减少了对人工规则的依赖,完全由数据驱动,类似于GPT的泛化能力,为解决自动驾驶中的长尾问题提供了新的解决途径。