甲子智库在上一篇关于自动驾驶的文章中,简述了AI大模型技术在自动驾驶系统研发过程中的应用价值和重要性,并提到了特斯拉FSD V12带起的热门概念“端到端自动驾驶”。
北京国际汽车展览会也印证了这一点:商汤科技、元戎启行等国内AI企业的端到端智能驾驶量产方案在车展亮相,“大模型上车”成为热议话题。元戎启行展出了基于端到端模型的量产智能驾驶方案DeepRoute IO,商汤绝影也在现场展示了面向量产的端到端自动驾驶解决方案 UniAD (Unified Autonomous Driving) 的道路测试表现。
本文将主要探讨端到端自动驾驶的概念、优势,以及未来发展面临的挑战。
从高精地图到无图的“全国都能开”,从高速NOA到城区NOA,L2++级别的自动驾驶功能已经量产上车投入规模化使用,冲击着L3的界限。但如何从L2++真的跨越到L3/L4,始终是横亘在自动驾驶从业者面前的难题。
在ChatGPT的成功之后,由“大算力+大模型+大数据”驱动创造的“智能涌现”,为自动驾驶带来了新的路径选择。
现阶段已经上车的智能驾驶产品,绝大多数采用了“感知-预测-规划-控制”串联的模块化架构。摄像头、雷达、IMU、激光雷达等传感器采集到的信息先交由感知/预测模块进行空间感知计算;感知模型输出结果后,再交由基于规则的规划模块,进行相应的决策与路径规划;控制模块根据决策规划的结果,最终生成车辆转向角、制动力、油门/电门等动作。
而端到端架构则有所不同,比模块化的系统架构更加简单。狭义的端到端模型并不拆分感知、预测、规划、控制等模块。相反地,端到端模型是一体化的,传感器信号作为模型的输入,输出则直接是用于车辆执行器的加减速与转向的指令。
从开发的角度来看,“端到端”概念的引入是革命性的,尤其对于规划/决策模块而言。主流规划方案仍然基于手写规则,非常依赖设计好的先验规则与传统算法的优劣,遇到bad case时需要继续添加规则、打补丁以实现模型调优。
相比之下,没有进行任务切分的端到端自动驾驶则摒弃了传统自动驾驶中感知、预测、规划、控制各大模块及各类子任务,能够实现输入传感器数据可直接输出车辆动作控制。
整体来看,端到端的优点包括但不限于:
数据驱动:用于模型训练的数据规模与质量将是影响产品性能的主要因子,仅需要少量的人工编码。通过扩大优质训练数据的规模,可以不断提升系统的能力上限,并通过数据驱动的方式不断响应长尾场景下的数据回传,更新模型参数,消除/降低对人工编码的需求。
整体最优:端到端旨在服务整体目标,而不是每个模块单独一个目标,实现“老司机”般丝滑的驾驶体验。
消除误差:一体化的模型结构可以减少各模块之间信息传递的延迟,且全栈神经网络的上下层之间可以传递全量的信息,消除累计误差,让自动驾驶系统反应更加敏捷和准确。
端到端方案的优势已经显现,大模型的加速渗透让自动驾驶的继续进步看到了一条更高效的路径。那么端到端是自动驾驶走向下一阶段的必选之路吗?
端到端自动驾驶系统的研发存在着多重挑战。
首先,端到端自动驾驶存在模型的弱解释性/不可解释性,这对于强调安全底线的自动驾驶是需要解决的问题。端到端系统遇到问题后,无法像模块化系统可以逐步分析中间的输出结果,难以找到出问题的具体节点。大模型是大算力与海量数据的暴力美学,在文本生成、图像生成等场景失效成本很低,但自动驾驶的失效成本是非常高昂的。这是端到端系统想要通过验证测试,进而产业化的难点。
其次,类似大语言模型,端到端自动驾驶大模型其实是对海量驾驶视频片段的压缩和升华,需要极大规模的高质量数据。以特斯拉FSD V12为例,相当于是把千万个视频片段给神经网络去学习。这意味着端到端自动驾驶需要大量的、优质的驾驶视频片段进行训练。数据采集的难点是一方面,如何在海量片段中清洗和选择高质量的数据是更难的另一个方面。
最后,大模型的训练也是一笔极大的投入。在采集高质量视频数据的同时,也需要加大对算力投入。马斯克曾表示特斯拉的训练算力要在2024年底提升到100EFLOPS这一惊人的数字。对于国内厂商而言,算力储备难的问题将更加凸显。
在自动驾驶的征途上,端到端技术以其革命性的理念,正逐渐揭开智能驾驶的新篇章。尽管路途中仍然有着重重难关,但技术的突破和产业的协同,无疑将为这一领域注入源源不断的动力。