徽州骆驼 · 1 天前

一段式端到端终将消失,端到端智能驾驶新技术之思维链CoT

思维链 (Chain of Thought,CoT) 是一种人工智能方法,通过将复杂的任务分解为一系列逻辑步骤,最终实现解决方案,以模拟类似人类的推理过程。这种方法反映了人类智能的基本特征,提供了一种结构化的问题解决机制。换句话说,思维链 (CoT) 基于认知策略,将复杂问题分解为可管理的中间思想,然后依次引导至最终答案。思维链是针对大模型不擅长做逻辑思考题而开发的新技术,大模型也正是靠思维链获得了推理能力。

思维链是最适合端到端智能驾驶的技术路线,可以复用传统分段式智能驾驶的技术积累,可以单独优化某一模块,最重要是它提高了智能驾驶的可解释性,提高了智能驾驶的迭代能力,也能给乘客带来更高的信心,更信任智能驾驶。

如果 AI 被问到“天空是什么颜色的?”,AI 会生成一个简单直接的回答,例如“天空是蓝色的。”然而,如果使用思维链 (CoT) 提示要求 AI 解释为什么天空是蓝色的,AI 会将问题拆解为两步,首先会定义“蓝色”的含义(即一种原色),然后推导出天空之所以呈现蓝色,是因为大气吸收了其他颜色。这一回答体现了 AI 构建逻辑论证的能力。

智能驾驶可以视作一个推理问题,即输入环境信息(主要就是V,即视觉,激光雷达的点云信息和深度信息可以看做是一种特殊V,如果是全数字激光雷达可以直接输出3D图像,这和视觉完全一致,是更高级的3D视觉,单从这个角度说,激光雷达也可以是纯视觉),输出底盘执行动作A,L即大语言模型或基石多模态大模型做了环境认知。如果没有思维链,那就是没有L,直接从V输出到A。

image.png

图片来源:论文《Chain-of-Thought for Autonomous Driving: A Comprehensive Survey and Future Prospects》

树形思维链和图形思维链是最适合自动驾驶的,因为正确的驾驶是不止一种的,ToT (Tree-of-Thoughts)允许语言模型同时考虑多种不同的推理路径,通过对推理过程进行自我评估,以及在必要时进行前瞻或回溯以做出全局选择。思维链的开山之作源自谷歌2021年12月发表的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》,核心作者是知名AI华人学者魏杰森,2020 年本科毕业成为谷歌大脑的高级研究员,目前在OpenAI。

一般来说CoT会分为两种:基于人工示例标注的Few-shot CoT和无人工示例标注的Zero-shot CoT。回答问题“与法国接壤并有红白国旗的国家的首都在是哪里?”时,尽管没有经过此类问题的特定训练,但使用零样本思维链 (CoT) 的模型会利用其内嵌的地理和国旗知识来拆解问题,第一步是与法国接壤,第二步是红白国旗,推断出来是瑞士,第三步,根据地理知识,推断出是伯尔尼。

图片

   这里是一个CoT思维链在自动驾驶中的详细实例,车辆通过十字路口场景。

感知阶段

问题拆分:将环境感知拆解为信号灯状态识别、行人信息捕捉、周边车辆动态监测三个子问题。摄像头通过图像识别算法,定位路口信号灯区域,判断其颜色为黄色;利用人体姿态检测模型,锁定路口中间行人的位置,同时分析其肢体动作,判断正处于行进状态;结合雷达测距与摄像头视觉信息,获取右侧车辆的实时位置与速度,通过前轮转向角度、转向灯亮起等细节,初步判定有变道意图。

行为决策阶段

问题拆分:针对每个风险点,结合规则与车辆性能推理对应决策,并整合为最终方案。风险点包括黄灯剩余时间未知,根据常规交通灯周期推算,快速变红概率高,若强行通过可能违反交通规则;行人干扰:行人位于车辆行驶路径上,若保持原速行驶,到达路口时可能与行人发生碰撞;变道风险:右侧车辆变道会侵占本车道空间,且两车速度差与相对位置存在碰撞可能;最终决策:综合以上因素,同时满足交通规则与安全需求的最优解是立即减速停车。

底盘执行阶段

将停车决策拆解为制动力度控制、停车位置选择、后续动作规划三个步骤。系统根据当前车速与距离,计算合适的制动压力,向制动系统发送指令,平稳降低车速;选择距离行人与变道车辆安全距离外的位置,完全停车等待;持续监测行人与变道车辆动态,待行人通过、右侧车辆完成变道,且信号灯状态允许时,再规划启动与行驶路径。

自动驾驶与思维链总览

图片

图片来源:论文《Chain-of-Thought for Autonomous Driving: A Comprehensive Survey and Future Prospects》

使用思维链技术的智能驾驶模型一览

图片

图片来源:论文《Chain-of-Thought for Autonomous Driving: A Comprehensive Survey and Future Prospects》

上图包括了目前开环测试成绩最好的地平线的Senna,理想的Drive-VLM,小米的ORION,Waymo的EMMA,华为的DRIVE-CoT。 基本上优秀的端到端智能驾驶都采用了思维链技术。

有思维链与无思维链智能驾驶对比

图片

full pipeline mode (V-L-A),vision-only mode (V-A), language-only mode (L-A), and uninformed mode (A) ,很明显,VLA效果要明显好很多。

数据来源:理想汽车论文《DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models》

图片

图片来源:论文《DriveLM: Driving with Graph Visual Question Answering》

DriveLM则通过“图结构的视觉问答(Graph Visual Question Answering, GVQA)”任务来模拟人类的多阶段推理过程。以图结构方式组织问答对,将每个问题视作图中的节点,不同任务阶段之间的逻辑依赖关系作为边,构建有向无环图。推理流程包括五个阶段:(1)、P1 感知:识别和定位关键目标;(2) P2 预测:估计目标未来可能行为;(3)、P3 规划:基于预测结果制定自车安全行为;(4)B 行为:自然语言描述自车的决策动作;(5)、M 运动:输出自车未来轨迹点。

中国的交通规则执行查处的广度和深度是全球范围内最高的,因此必须使用思维链技术。

DriveCoT框架

图片

图片来源:论文《DriveCoT: Integrating Chain-of-Thought Reasoning with End-to-End Driving》

中国道路环境必然包含多个推理任务分解,而美国道路环境基本上只考虑一个碰撞风险,中国要至少加上信号灯和车道规则,还可能有交警手势等多个任务。

小米汽车和清华大学提出了思维链的增强版,即工具增强型思维链,如下图中的ours。

图片

图片来源:论文《AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving》

将思维链 (CoT) 推理融入 VLM,如图 (b) 所示。一些方法采用僵化的 CoT 模板,以牺牲灵活性为代价来提升结构化逻辑。另一些方法则使用开放式推理格式 ,但可能会过拟合 token 模式,并表现出浅薄或冗余的推理。此外,大多数现有方法纯粹依赖于从预先设定的轨迹中进行模仿学习,缺乏检测知识不确定性或调用工具进行中间验证的能力 。这些挑战引出了一个关键问题:VLM 如何才能真正发挥决策智体的作用——既能认知自身知识边界,又能熟练地进行验证,并能够从工具引导的反馈中学习?这方面的灵感源自经验丰富的人类驾驶员,他们会在不确定时借助后视镜或 手机导航等辅助工具来完善判断。同样,一个有能力的自动驾驶智体不仅必须清晰地推理,还必须认识到自身的局限性,并动态地运用目标检测器或运动预测器等工具来引导其推理和决策。

小米汽车和清华大学联合做了一个工具库,包含五个驾驶核心模块的功能:视觉信息、检测、预测、占用和地图,以及单视角视觉工具(开放词汇检测、深度估计、裁剪、缩放)。此外,还包括基础的单视角视觉工具,如开放词汇目标检测器和深度估计器。这些工具共同使模型能够提取全面的环境信息,以支持多样的感知和预测任务。每一个推理步骤包含五个关键元素,分别是选择工具、生成的子问题、不确定性标志、猜测的答案、下一个动作选择。重复上述流程,为每个问答对采样N条结构化推理轨迹。

图片

图片来源:论文《AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving》

在DriveLMM-o1 上的成绩对比,AgentThink大幅度超越GPT-4o。

典型VLA

图片

图片来源:博世论文《DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving》

在中国,端到端智能驾驶必然是要考虑交通规则的,其任务必然是多层的,至少包含安全和遵守交通规则,也就是说必然包含至少两个阶段的推理任务。此外对自动驾驶任务,路径规划阶段,大模型不擅长输出精确的waypoint坐标信息,基于diffusion的路径规划模型参数小,计算成本低,性能远比传统大模型要好。目前VLA一般都是大模型+diffusion。纯粹的一段式或者说全局式端到端是无法满足中国市场的。

免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。

END

作者:周彦武
来源:佐思汽车研究

推荐阅读:

更多汽车电子干货请关注汽车电子与软件专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
5796
内容数
529
汽车电子与软件行业的相关技术报道及解读。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息