商汤、Waymo 和地平线复制 DeepSeek 成功之道—强化学习

DeepSeek R1 惊艳问世，其有三个特色：

DeepSeek-R1-Zero：纯 RL 强化学习，展现了自我进化能力，但存在可读性问题，比如可能夹杂两种语言，语法与格式错误。
DeepSeek-R1：冷启动 + 多阶段训练，在多个推理 benchmark 上取得了和 OpenAI-o1-1217 相近的水平，可算纯粹强化学习的改进。
小模型蒸馏：知识蒸馏后的小模型在推理 benchmark 上也表现出强大的竞争力，也有可能部署在边缘比如车端。注意这些小模型本质上还是 Qwen-2.5 或 Llama 3，只是经过了 DeepSeek R1 的 300K 样本蒸馏增强。

目前，LLM 大模型都是分两阶段：第一阶段是无监督的海量免费互联网数据做预训练；第二阶段是用精确人工标注的高质量数据做 SFT 监督微调，这些高质量数据成本高且比较费时间。OpenAI 的 o1 系列模型通过增加思维链（Chain-of-Thought, CoT）推理过程的长度来提升推理能力，但如何有效进行测试时（test-time）扩展仍是开放问题。很多人立刻想到了无监督的强化学习来解决第二阶段成本高的问题，但仍需要 SFT。纯强化学习效果如何？DeepSeek 是第一个尝试的，DeepSeek-R1-Zero 纯强化学习：直接在基础模型上应用强化学习，不使用任何 SFT 数据。探索 LLM 在纯 RL 环境下的自演化过程，使其自主发展推理能力。DeepSeek-R1 冷启动 + 多阶段训练：使用少量高质量的 CoT 数据进行冷启动，预热模型，进行面向推理的强化学习，提升模型在推理任务上的性能；使用拒绝采样和监督微调，进一步提升模型的综合能力；再次进行强化学习，使模型在所有场景下都表现良好。

LLM 领域内的强化学习一般采用 Proximal Policy Optimization (PPO) ，这是一种广泛使用的强化学习算法，尤其适用于对 LLMs 进行微调。PPO 的目标是通过最大化替代目标函数来优化策略模型。PPO 中的值函数通常是一个与策略模型大小相当的模型，这带来了显著的内存和计算负担。此外，在 LLMs 的上下文中，值函数在训练过程中被用作优势计算中的 Baseline，但通常只有最后一个 token 会被奖励模型赋予奖励分数，这可能使得值函数的训练变得复杂。为解决这些问题，DeepSeek 提出了 Group Relative Policy Optimization (GRPO)，不再需要像 PPO 那样加入额外的价值函数近似，而是直接使用多个采样输出的平均奖励作为 Baseline，显著减少了训练资源的使用。最终取得了成功。

商汤和地平线借鉴 DeepSeek 的思路，提出了用强化学习来增强自动驾驶的方案，Waymo 则在 2023 年就提出了类似的方案，比 DeepSeek 要早约 1 年半。

强化学习按有无模型分为有模型强化学习（Model-Based Reinforcement Learning，MBRL）和无模型强化学习（Model-Free RL），MBRL 实际就可以等同于世界模型，无模型强化学习直接学习策略函数或价值函数，并没有对环境进行建模。也就是说，只能通过和真实环境交互来采集数据，效率极低，大概是人类的数百万分之一的效率。MBRL 算法的核心思想是，通过学习环境的动态模型和奖励函数，利用这些模型进行规划与决策，从而提高样本效率。与 Model-Free RL 直接学习策略或价值函数不同，MBRL 首先学习环境的内在模型，然后利用这个模型来指导策略的学习和执行。这里的核心在于「环境模型」，指的是环境的动态模型和奖励函数。更具体地说，动态模型描述了在给定状态和动作的情况下，环境将如何转移到下一个状态；而奖励函数则描述了在给定状态和动作的情况下，智能体将获得多少奖励，即马尔科夫决策模型 MDP。

通常提到强化学习都特指无模型的强化学习。

图片来源：网络

目前，端到端自动驾驶有三种策略：模仿学习（IL）的场景克隆，简称 BC，是目前最常用的；逆最优控制(IOC)，也称为逆强化学习(IRL)，是另一种利用专家演示学习奖励函数的 IL 方法，提供多种路径，非监督学习，降低对数据集的依赖；最后就是强化学习，简称 RL。

BC 是从专家（如人类司机）的示范（轨迹）中直接学习策略的方法。在自动驾驶的背景下，行为克隆涉及从大量的驾驶数据中学习，以模仿人类的驾驶行为。这种方法简单且计算效率高，但可能无法处理未见过的情境或异常情况。IL 主要捕捉观察（状态）和动作之间的相关性，而不是因果关系。因此经过 IL 训练的策略可能难以识别规划决策背后的真正因果因素，导致捷径学习，例如仅仅从历史轨迹推断未来轨迹。此外，由于 IL 训练数据主要包含常见的驾驶行为，不足以覆盖长尾分布，经过 IL 训练的策略往往收敛到平凡解，缺乏对碰撞等安全关键事件的足够敏感性。IL 策略以开环方式使用分布良好的驾驶演示进行训练。然而，现实世界的驾驶是一个闭环过程，每一步的小轨迹误差会随着时间累积，导致复合误差和分布外场景。IL 训练的策略在这些未见过的情况下常常表现不佳，引发了对其鲁棒性的担忧。

强化学习模型在模拟环境中与交通场景进行交互，通过 RL 的奖励机制来调整和优化行为策略。这种方法可以使模型学会在复杂和动态的交通环境中做出更好的决策。强化学习缺点是效率低下，需要大量的试错才能得出正确的模型。再有就是无法使用真实世界驾驶环境进行训练，因为真实世界驾驶环境是无法承受频繁试错的，那样成本太高，目前所谓的仿真都是基于传感器的，一般都是基于游戏引擎，真实世界是基于 object 而非传感器。换句话说目前的仿真都不够“真”。还有就是人类对齐问题，RL 中的探索过程可能导致偏离类人行为的策略，破坏动作序列的平滑性。为了解决这个问题，在 RL 训练期间将模仿学习作为正则化项纳入，帮助保持与人类驾驶行为的相似性。

在 2025 年 2 月 22 日的商汤大模型生产力论坛上，商汤绝影 CEO，商汤科技联合创始人、首席科学家王晓刚重磅发布了行业首个「与世界模型协同交互的端到端自动驾驶路线 R-UniAD」，通过构建世界模型生成在线交互的仿真环境，以此进行端到端模型的强化学习训练。

图片来源：商汤绝影

R-UniAD 就是通过高质量数据进行冷启动，用模仿学习的方式训练出一个端到端基础模型，再通过世界模型生成的视频数据，使用强化学习方法进行训练。据测算，小样本多阶段学习的技术路线能让端到端自动驾驶的数据需求降低一个数量级。

R-UniAD

图片来源：商汤绝影

商汤绝影的 R-UniAD 是「多阶段强化学习」端到端自动驾驶技术路线，具体分为三个阶段，首先是依靠冷启动数据通过模仿学习进行云端的端到端自动驾驶大模型训练；然后基于强化学习，让云端的端到端大模型与世界模型协同交互，持续提升端到端模型的性能；最后云端大模型通过高效蒸馏的方式，实现高性能端到端自动驾驶小模型的车端部署。

地平线和华中科技大学则提出 RAD。

图片来源：论文《RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning》

Waymo 的解决办法是将模仿学习和强化学习结合，强化学习做微调，Waymo 为此打造了 eWaymo Open Sim Agents Challenge，简称 WOSAC。Waymo 的论文有两篇，一篇是 Improving Agent Behaviors with RL Fine-tuning for Autonomous Driving。另一篇是 The Waymo Open Sim Agents Challenge，理想、地平线的思路也是将模仿学习和强化学习结合，并尽量模拟真实物理世界，特别是 3D 方面，地平线的最新论文 RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning，主要就是用 3D 高斯泼溅尽量仿真。国内研究者的水平显然在 Waymo 之上，更不要说特斯拉了。

RAD 框架

图片来源：论文《RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning》

这里地平线并未使用大模型，大模型特别是 VLM 这种，离实用相当遥远，并且 VLM 擅长的不是高频输出 waypoint 而是低频输出车辆行为解释即 VQA。首先使用 BEV 编码器将多视图图像特征从透视视图转换为鸟瞰图，从而在 BEV 空间中获得一个特征图。该特征图随后用于学习实例级地图特征和智能体特征。BEV 特征使用传统 CNN 骨干网，然后输出多个任务头，包括地图和智能体 Head。

地图 Head 任务：BEV 特征图输入 Token 化，经过地图编码器，重建驾驶场景的矢量化高精地图元素，包括车道中心线、车道分隔线、道路边界、箭头、交通信号灯等，实际就是地平线以前提出的 MapTR。

智能体 head 任务：所谓智能体就是参与交通的能够自主行动的物体或人，特征图输入 Token 化，预测其他交通参与者的运动信息，包括位置、方向、大小、速度和多模态未来轨迹。地平线称之为 PIP，即 Perceive, Interact, Predict，详细可见地平线的论文《Perceive, Interact, Predict: Learning Dynamic and Static Clues for End-to-End Motion Prediction》。还使用单独的图像编码器将原始图像转换为图像标记。这些图像标记为规划提供了密集而丰富的场景信息，与实例级标记形成互补。

动作空间：为了加速强化学习训练的收敛，地平线设计了一种解耦的离散动作表示。将动作分为两个独立的部分：横向动作和纵向动作。动作空间是在 0.5 秒的短时间范围内构建的，在此期间，通过假设车辆的线性速度和角速度恒定来近似其运动。在这个假设下，横向动作和纵向动作可以根据当前的线性速度和角速度直接计算得出。通过将解耦与有限的时间范围和简化的运动模型相结合，地平线的方法有效地降低了动作空间的维度，加速了训练收敛，提高了训练效率。

规划任务由地图标记、智能体标记和图像标记组成。初始化一个规划嵌入，一个级联的 Transformer 解码器以规划嵌入作为查询 Query，场景表示作为键 K 和值 V。解码器的输出然后与导航信息和自车状态相结合，以输出横向动作和纵向动作的概率分布：规划头还输出值函数，分别用于估计横向和纵向动作的预期累积奖励：值函数用于强化学习训练。

采用三阶段训练范式：感知预训练、规划预训练和强化后训练。

感知预训练：图像中的信息是稀疏且低级的。在第一阶段，地图 Head 和智能体 Head 明确输出地图元素和智能体运动信息，这些信息由真实标签进行监督训练。因此，地图标记和智能体标记隐式编码了相应的高级信息。在这个阶段，只更新 BEV 编码器、地图头和智能体头的参数。
规划预训练：在第二阶段，为了防止强化学习训练的冷启动不稳定，首先进行模仿学习，基于专家在现实世界中的大规模驾驶演示来初始化动作的概率分布。在这个阶段，只更新图像编码器和规划头的参数，而 BEV 编码器、地图头和智能体头的参数被冻结。感知任务和规划任务的优化目标可能会相互冲突。然而，通过将训练阶段和参数解耦，这种冲突在很大程度上得以避免。
强化后训练：在强化后训练中，强化学习和模仿学习协同微调分布。强化学习旨在引导策略对关键风险事件敏感，并适应分布外的情况。模仿学习作为正则化项，使策略的行为与人类行为保持相似。

图片来源：论文《RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning》

地平线与华中科技大学自建了一个高风险碰撞视频数据集，对于每个视频片段训练一个独立的 3DGS 模型，对该片段进行重建，并将其作为数字驾驶环境。如上图所示，地平线设置了 N 个并行工作进程。每个工作进程随机采样一个 3DGS 环境并开始滚动，即 AD 策略控制自车移动，并与 3DGS 环境进行迭代交互。在这个 3DGS 环境的滚动过程结束后，生成的滚动数据，记录在滚动缓冲区中，并且该工作进程将采样一个新的 3DGS 环境进行下一轮滚动。

奖励是训练信号的来源，它决定了强化学习的优化方向。奖励函数旨在通过惩罚不安全行为和鼓励与专家轨迹对齐来引导自车的行为。它由四个奖励组件组成：（1）与动态障碍物碰撞、（2）与静态障碍物碰撞、（3）与专家轨迹的位置偏差、（4）与专家轨迹的航向偏差：

图片来源：Waymo 论文《Improving Agent Behaviors with RL Fine-tuning for Autonomous Driving》

见上图，与地平线的近似，所不同的是 Waymo 构建了一个 WOSAC 即模拟智能体交通仿真，WOSAC 挑战模拟了一个复杂的交通环境，其中包括多种类型的交通参与者和多样的驾驶情境。挑战的目标是生成能够准确反映人类驾驶行为的模拟代理（sim agents），以便在自动驾驶系统的开发和测试中使用。主要性能评估指标包括碰撞率、遵循交通规则的比例、行驶效率等。这些指标能够全面反映模型在模拟环境中的驾驶行为质量和安全性。

通过强化学习微调，Waymo 的模型在 WOSAC 挑战中的碰撞率从基线的 5%降至 1.5%。这一显著的降低证明了强化学习在提高模型安全性方面的有效性。

碰撞率降低的原因分析：碰撞率的降低主要归功于强化学习微调过程中对模型行为的精细调整。在模拟环境中，模型通过与环境的交互学习到了避免碰撞的策略，这些策略随后被应用到了实际的驾驶场景中。
其他关键指标的改进：除了碰撞率之外，Waymo 的模型在其他关键指标上也表现出了改进。例如，遵循交通规则的比例从基线的 80%提升至 90%，这表明模型在强化学习微调后能够更好地理解和遵守交通规则。行驶效率的提升则体现在平均行驶时间的缩短和路径选择的优化上。

最后来说世界模型（World Model）。世界模型能够模拟环境的行为，从而允许智能体在虚拟环境中进行规划和学习，显著提高了学习效率和安全性。世界模型用途：决策规划（Decision-Making Planning）：智能体可以利用世界模型预测未来状态，从而选择最优的动作序列。后台规划（Background Planning）：智能体可以在与环境交互的同时，利用世界模型进行离线学习，提高策略的泛化能力。

根据模型学习方式的不同，世界模型可以分为两大类：生成式世界模型（Generative World Models）和非生成式世界模型（Non-Generative World Models）。对自动驾驶来说，生成世界模型就是输入 prompt 关键词后生成你想要的视频数据。

世界模型可以生成高质量自动驾驶数据，让那些所谓巨大保有量带来的庞大数据优势完全消失，因为世界模型可以提供高质量 corner case 数据，而那些所谓巨大保有量带来的庞大数据中不到 1%是 corner case，超过 99%的数据几乎毫无价值，因为它们是单一重复场景的。

也可以用世界模型生成长尾视频来训练端到端模型，与用无模型强化学习微调还是有一点差距，但是效率更高。当然世界模型生成长尾视频目前也面临分辨率低，帧率低，时间短，不够 3D 真实等缺点，华为、理想、商汤也在这方面倾注了不少心血。

DeepSeek 的成功表明先发未必是优势，科技最终都会体现在效率提升上，数据量和数据中心的算力无关紧要，数据质量和训练方法才是关键。智能驾驶领域，国内拥有复杂程度远超美国的交通场景，中国智能驾驶的研究热度和成绩也远超美国，完全不必妄自菲薄。

END

作者：周彦武
来源：佐思汽车研究

推荐阅读：

更多汽车电子干货请关注汽车电子与软件专栏。欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。

推荐阅读

目录