甲子光年 · 20 小时前 · 湖南

AI大模型在自动驾驶领域的应用探讨(3)

AI技术在众多应用中,自动驾驶无疑占据着耀眼的地位。对于AI领域的专业人士来说,自动驾驶不仅是技术巅峰的象征,更是他们追求的梦想,让产学两界的AI从业者心驰神往。

近年来,自动驾驶行业的发展与AI技术的每次进步紧密相连。新的热门概念层出不穷,从依赖高精地图到无需地图导航,从高速公路辅助到城区自动驾驶,从CNN到Transformer,从BEV鸟瞰视角到OCC空间占用网络,再到从模块化到一体化的端到端自动驾驶系统……每一次技术革新,都是学术界突破的成果,也是推动自动驾驶技术不断挑战“无人接管”的动力。

随着芯片性能的增强、算法的成熟、成本的降低以及政策的支持,智能驾驶功能正逐渐成为汽车的标配。L2+级别的智能驾驶功能在新车销量中的占比逐年攀升。“无图”和“全国都能开”已成为新能源汽车和智能驾驶领域的竞争焦点。但实际应用中频繁出现的接管事件和高质量数据积累效率的不足,是自动驾驶技术继续向上突破L3级别,实现“智能驾驶”到“自动驾驶”面临的主要障碍。寻找新的技术解决方案,已成为学术界和产业界的共同目标。

甲子智库之前发表的文章已经概述了AI大模型在自动驾驶领域的应用现状和端到端自动驾驶的概念。本文旨在端到端自动驾驶成为行业共识之前,探讨学术界和产业界在这一技术路线上的探索和实践。

1.自动驾驶系统架构的演化:模型融合与数据驱动

自动驾驶技术的发展,根据AI技术的应用,可以划分为四个关键阶段,体现了数据驱动和模型融合的演进趋势:

AD 1.0:基础模块化自动驾驶,早期依赖规则系统,随着深度学习的进步,部分模块转向数据驱动;

AD 2.0:BEV视角与Transformer模型的融合,实现传感器数据的时序融合,感知和决策模块的局部神经网络化,目标是减少人工编码,提高模型训练的自动化程度;

AD 3.0:端到端的全栈神经网络,整合感知、决策和控制,减少信息传递损失,但存在解释性不足和潜在的幻觉问题;

AD 4.0:引入大型语言模型(LLM)或世界模型,利用丰富的驾驶常识增强推理能力,或通过仿真训练和轨迹预测提升性能。

当前,产业界普遍处于AD 2.0阶段,BEV+Transformer+Occupancy Network成为自动驾驶领域的主流技术选择,智能驾驶功能已经实现规模化部署。而特斯拉在北美推出的FSD V12,以及商汤科技、元戎启行、头部新势力等国内AI企业的端到端自动驾驶产品,显示了从智能驾驶向自动驾驶转变的积极态势。华为和其他新兴汽车制造商也在积极研发,推动决策大模型和全栈神经网络的部署,预示着自动驾驶技术的光明前景。

2.端到端神经网络的训练方法:模仿学习与强化学习

在自动驾驶领域,端到端神经网络的训练方法主要依赖于模仿学习(Imitation Learning,IL)和强化学习(Reinforcement Learning,RL),同时结合其他策略来弥补各自方法的局限性。

学术界与产业界在端到端自动驾驶技术方面的gap正在缩小,学术成果的产业化速度也在加快。一些在学术界表现出色的端到端技术,在产业界的工程师人才、算力和大规模数据支持下,已经能够与传统的模块化自动驾驶技术相媲美。

然而,正如甲子智库之前文章所指出的,端到端自动驾驶技术目前仍面临诸多挑战,包括解释性不足、高算力需求和对高质量数据集的依赖。AI领域的专家们正在探索新的解决方案。未来端到端技术实现真正自动驾驶的可能途径包括:

零样本/少样本学习:针对自动驾驶系统在实际运行中可能遇到的未知场景,零样本或少样本学习方法将更符合系统的需求;

模块化端到端规划:通过优化多个模块并优先考虑下游规划任务,提高系统的整体性能;

数据引擎:数据自动标注的pipeline能够显著加快模型的迭代速度。在大模型的辅助下,可以简化高质量感知标签的自动注释过程,甚至支持挖掘和编辑corner case,进一步优化数据驱动模式,增强模型的泛化能力;

V2X技术:车路协同或V2X技术从另一角度补充了单车自动驾驶的不足,这需要道路交通行业的整体协同发展,提高道路智慧化和车联网运营的能力。

基础模型:将大型语言模型(LLM)或多模态模型应用于自动驾驶系统的推理能力建设,赋予系统理解和推理能力,使自动驾驶车辆能够真正理解周围环境,并对其输出结果进行解释,增强其可解释性。

这些方法和技术的探索和应用,将有助于推动自动驾驶技术向更高级别的自动化和智能化发展。

3.基础模型:不同种类模型对自动驾驶的多样化赋能

在自动驾驶系统的构建过程中,大模型或基础模型(Foundation Models)在多个功能层面提供了显著的赋能作用。其中,大语言模型能够在规划与推理、车辆驾驶常识、用户交互层面赋能;大视觉模型能够在3D目标检测、仿真、测试等环节提供助力;多模态大模型则能够全面赋能自动驾驶系统的视觉理解与空间推理,并全面提升感知与预测能力。以下是各类模型在自动驾驶领域的应用概述:

大语言模型(LLM)

推理和规划:LLM利用其在逻辑推理、代码生成和翻译方面的专长,为自动驾驶的路径规划和决策制定提供支持;

用户交互:通过理解自然语言并执行用户指令,LLM使智能驾驶系统更加用户友好,实现个性化体验;

常识性驾驶知识:LLM的预训练能力使其能够理解和应用驾驶常识,可能替代传统的基于规则的系统。

大视觉模型(VFM)

目标检测和跟踪:VFM在物体检测和分割方面的能力,对于自动驾驶的感知系统至关重要,特别是在3D目标的识别和追踪方面;

仿真和测试:VFM的视频生成能力,为创建逼真的驾驶场景提供了支持,这对于自动驾驶系统的安全性和可靠性测试至关重要。

多模态大模型(MFM)

视觉理解与空间推理:MFM结合了视觉和语言信息,展现出卓越的视觉理解和空间推理能力,对自动驾驶系统的决策过程至关重要;

综合感知与预测:MFM通过整合视觉和语言数据,提高了对环境的感知精度和对其他交通参与者行为的预测准确性。

这些模型的应用不仅能够提升自动驾驶系统的性能与可靠性,还能进一步增强其对复杂环境的适应性和对用户需求的响应能力。随着技术的不断进步,这些模型有望在未来的自动驾驶领域发挥更大的作用,推动自动驾驶技术向更高水平发展。

在自动驾驶的征途上,AI技术的每一次飞跃都为这一领域注入了新的活力,自动驾驶也正逐步从梦想走向现实。尽管面临解释性、算力需求和数据质量的挑战,但学术界与产业界的紧密合作,以及零样本学习、模块化规划、数据引擎和V2X技术的探索,正逐步克服这些障碍。特别是大模型的多样化赋能,无论是在规划推理、用户交互,还是在3D目标检测、仿真测试,以及视觉理解与空间推理方面,都有望显著提升自动驾驶系统的性能和适应性。

随着技术的持续进步和创新,自动驾驶的前景日益明朗。大模型作为变革的驱动力,将在推动智能交通系统向更高智能、安全性和效率的方向发展中扮演关键角色。

推荐阅读
关注数
4537
内容数
191
精品科技产业服务机构,致力于推动科技落地 修改信息
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息