世界模型 World Model 101

随着世界模型 World Model(WM) 在 AI 研究、特别是汽车和机器人等应用领域日益受到关注，越来越多的人包括从业人员，投资者、AI 爱好者和 AI 科学家都开始竞相讨论和使用世界模型 (WM)这个词。

但是，世界模型 (WM)它真正含义、重要性以及它目前学术和行业应用的发展阶段确实鲜有能说明的。

所以，本文根据相关论文，专家信息总结：

世界模型的概念基础
世界模型历史发展
当前著名的世界模型
- 谷歌 Google DeepMind DreamerV3
- 谷歌 Google DeepMind Genie 2
- 英伟达 NVIDIA Cosmos 世界基础模型
- Meta V-JEPA 2
结论：世界模型为什么重要？

希望给大家带来一些信息和启发。

1.世界模型的概念基础

其实，人类的大脑并非处理世界中的每一个细微细节。相反，我们依赖过去经验形成的抽象表征——心智模型——来指导我们的决策。即使在事件发生之前，我们的大脑也会根据这些模型和先前的行为不断预测结果。

这也可以用卡尼曼的《思考快与慢》中的直觉快系统理解。

这正是人工智能中世界模型背后的概念。

Yann LeCun 周三在巴黎 Viva Tech 大会表示：“世界模型就像是现实的抽象数字孪生，人工智能可以参考它来理解世界并预测其行为的后果，因此它能够规划行动方案来完成给定的任务。”

人工智能领域的AI agent AI 代理也并非直接在现实世界中通过反复试验进行学习，而是使用“世界模型”（一种学习到的环境模拟）来想象和探索可能的动作序列。通过内部模拟这些动作，AI 能够找到通往期望结果的路径。

这种方法具有显著的优势。首先，世界模型避免了所有可能的实际生活中的训练，从而大幅减少了所需的资源。更重要的是，它们使人工智能与人脑的实际运作方式更加契合——预测、设想场景并计算结果。

Yann LeCun 也曾表示，世界模型对于实现人类水平的人工智能至关重要，尽管完全发挥其潜力可能需要大约十年的时间。

所以，现在，不少公司包括自动驾驶行业提出世界模型，但他们应该都属于早期的世界模型。

当前汽车和机器人行业用的世界模型可以用来做两个任务：

仿真环境的场景生成，生成不同的Corner case或者good case，使自己大模型训练更完善。Wayve的GAIA，英伟达的Cosmos（下文会讲到）都属于此类。

用世界模型进行规划和控制，在模型预测控制回路中进行规划，完成下游机器人操控任务。例如 Meta的 V-JEPA 2-AC（下文会讲到），蔚来宣布的自动驾驶NWM，按照道理也归于此类。

前者的场景生成，应该在汽车和机器人行业开始广泛应用，后者可能还处于实验室早期阶段。

2.世界模型的历史发展

虽然“世界模型”这一术语在过去几年中逐渐流行，但其基本概念在早期的人工智能研究中就已经有了。

1990 年Richard S. Sutton 的 Dyna 算法，应该是世界模型概念的早期起源。它是基于模型的强化学习 model-based reinforcement learning(MBRL) 的一种基本方法，将模型学习与规划和反应相结合，因此使用 Dyna 算法的 Agent可以：

尝试一些行动并看看哪些有效（通过 RL 进行反复试验）。
随着时间的推移，学习世界的模型并构建它来预测接下来可能发生的事情（学习）。
使用这种心理模型在“头脑”中尝试一些事情，而不必在现实世界中真正去做（计划）。
如果发生了什么事情，就根据已经学到的知识立即做出反应——每次都无需停下来计划（快速反应）。

2018 年的一项后续研究名为“规划形状对高维状态空间中 Dyna 式规划的影响”，在 Arcade Learning Environment（街机学习环境）中测试了 Dyna式模型。Arcade Learning Environment 是Atari 2600 游戏的集合，用于从原始像素图像训练 AI 代理。

该研究首次表明，学习模型可以帮助提高在 Atari游戏等高维输入环境中的学习效率，并表明 Dyna 是一种可行的规划方法。

一个重要的里程碑是David Ha 和 Jürgen Schmidhuber在2018 年发表的论文《世界模型》。他们构建了一个能够在简单环境中实际运行的系统。他们训练了一个生成式循环神经网络recurrent neural network (RNN)，以无监督的方式对流行的强化学习环境进行建模，例如赛车游戏和 2D 第一人称射击类游戏。他们的世界模型学习了游戏画面的压缩空间表征以及游戏演变的时间动态。更准确地说，这个系统由三部分组成：

Vision视觉：变分自动编码器 (VAE)将高维观测值（像素图像）压缩为低维潜在表示。
Memory记忆：混合密度循环网络 (MDN-RNN)根据当前潜在状态和代理的动作预测下一个潜在状态。
Controller控制器：获取潜在状态和 RNN 隐藏状态并输出动作。在最初的实现中，它是一个简单的线性策略，采用进化策略进行训练，以最大化奖励。

Ha 和 Schmidhuber 证明了策略（控制器）可以完全在学习模型的“梦境”中进行训练，然后成功迁移到真实的游戏环境中。这为构建能够像人类一样做梦、计划和行动的更智能的代理奠定了基础，并激发了人们对基于模型的方法的兴趣。

从那时起，很多事情都发生了变化。我们今天拥有什么？最新的世界模型是如何运作的？它们理解物理世界吗？

让我们来探索一下当代世界模型结构。

总而言之，世界模型是一种生成式人工智能系统，它从各种输入数据中学习现实世界环境的内部表征，包括其物理特性、空间动态特性和因果关系（至少是基本的因果关系）。它们利用这些学习到的表征来预测未来状态，在内部模拟一系列动作，并支持复杂的规划和决策，而无需持续进行现实世界的实验。

NVIDIA 强调了构建世界模型的以下组件：

Data curation数据管理：数据管理对于顺利训练世界模型至关重要，尤其是在处理大型多模态数据集时。它包括过滤、注释、分类以及删除重复的图像或视频，以确保数据质量。在视频处理中，这首先要对片段进行分割和转码，然后应用质量过滤器。视觉语言模型会注释关键元素，而视频嵌入则有助于识别和删除冗余内容。
Tokenization标记化：将高维视觉数据分解为更小、更易于管理的单元，以加速学习。它减少了像素级冗余，并创建了紧凑的语义标记，以实现高效的训练和推理。
- 离散标记化将视觉效果表示为整数。
- 连续标记化使用连续向量。
Fine-tuning微调：基于大型数据集训练的基础模型可以针对特定的物理 AI 任务进行调整。开发者可以从头构建模型，也可以使用额外数据对预训练模型进行微调。微调使模型在机器人、自动化和其他实际用例中更加有效。
- Unsupervised fine-tuning无监督微调使用未标记的数据进行更广泛的概括。
- Supervised fine-tuning监督微调利用标记数据来关注特定任务，增强推理和模式识别。
Reinforcement Learning (RL)强化学习 (RL)：它通过让推理模型在互动中学习，并根据动作获得奖励或惩罚来训练推理模型。这种方法有助于人工智能随着时间的推移不断调整、规划和改进决策。强化学习对于需要在动态环境中具备复杂推理和响应能力的机器人和自主系统尤其有用。

最近的一项综合调查的论文“Advances and Challenges in Foundation Agents”总结了构建人工智能世界模型的 4 种一般方法：

Implicit models隐式模型：这类模型使用一个大型神经网络来预测未来结果，而无需区分世界的变化方式和观察方式。这些框架允许智能体使用压缩图像和预测来“设想”未来的行动。这个应该在自动驾驶机器人等 Physical AI领域应用广泛。
Explicit models显式模型：这些模型清晰地区分了世界的变化（状态转换）和智能体所见的内容（观察）。这使得系统更易于解释，也更易于调试。
Simulator-based models基于模拟器的模型：这些模型并非从零开始学习，而是使用模拟器或真实环境来测试操作和结果。这种方法非常准确，但速度慢且成本高昂。
Hybrid and instruction-driven models混合模型和指令驱动模型：这些模型将学习到的模型与外部规则、手册或语言模型相结合。这种神经预测和基于规则的指导相结合的方式，使模型在新情况下更加灵活。

以上就是世界模型的一些概念性认知，接下来我们来看看当前世界模型的最新案例。

3.当前著名世界模型

Google DeepMind 的梦想家

或许最具影响力的一系列成果之一来自 Danijar Hafner 和 Google DeepMind 的同事，他们创建了 Dreamer 系列智能体。这款通用强化学习算法的最新版本（2025 年 4 月）DreamerV3可以使用相同的设置处理 150 多种不同的任务，而无需针对每项任务进行调整。

然而，最重要的是，它是第一个在 Minecraft 中从零开始收集钻石的算法，无需任何人类示例的帮助，仅使用自身的“想象力”和默认设置。这不仅是强化学习的成就，也是世界模型的成就。

DreamerV3学习世界模型，并利用它来想象接下来可能发生的情况，从而找出更好的行动方式。以下是该系统的具体工作原理：

DreamerV3由3个部分组成：

世界模型——获取 Agent代理所看到的内容，例如图像或数字输入，并使用循环神经网络 ( RNN )，特别是循环状态空间模型 (RSSM)，将其压缩为更简单的潜在表征。这有助于模型保留过去事件的记忆，并更好地预测未来状态。
给定一个动作，该模型可以预测下一个状态、预期奖励以及该场景是否继续。（注：与许多最近的 AI 架构不同，DreamerV3不使用 Transformer，而是完全专注于 Recurrent models循环模型。）
DreamerV3 在此介绍了几项智能增强功能：
- KL divergence KL 散度衡量预测与现实的差异程度——就像一个“现实检验”。如果预测不准确，模型就会进行相应的调整。
- Free bits空闲位有助于防止模型过度修正细微的误差。可以理解为：“如果已经足够好了，就不要再浪费精力去追求完美了。”
- Symlog encoding Symlog 编码将现实世界中的大量正负信号（例如奖励和像素值）压缩为可管理的数字范围，帮助系统稳定学习。
- Two-hot encoding 双热编码将学习目标分散到两个相邻的类别中，从而平滑预测并使学习过程更容易、更稳定。
Critic 评价器——评估世界模型所设想结果的好坏。由于奖励可能存在巨大差异，DreamerV3 采用了谨慎的规范化和基于分布的评分方法，即使在奖励稀疏或不可预测的情况下也能确保稳定的性能。它还采用了参数的移动平均值来进一步稳定学习。
Actor——根据世界模型和评价器提供的洞察来决定最佳行动，平衡即时奖励和新策略的探索，避免陷入困境。DreamerV3 会仔细规范预测回报，即使在奖励稀少的情况下也能保持平衡的探索。

Google DeepMind 的 Genie 2

谷歌 DeepMind 在世界模型领域取得的另一个有趣进展是Genie 2，它能够为具身智能体生成多样化的训练环境。Genie 2 只需一张图像，即可创建可操作的虚拟世界，并通过键盘和鼠标控制，供人类和 AI 系统使用。它支持长时域记忆、一致的世界生成以及从共享起点进行的反事实模拟。该模型展示了一些新兴能力，例如：

处理角色的移动
模拟物理动力学（重力、光照、反射），也就是应用真实物理世界的规则。
建模与物体和非玩家角色（NPC）的交互
与 SIMA 等代理配对后，Genie 2 可以生成新的 3D 场景来测试指令遵循情况，使代理能够使用自然语言命令在新环境中导航和行动。

Genie 2 内部有什么可以帮助它实现这一点？

Genie 2 是一个自回归潜在扩散模型（ autoregressive latent diffusion model），它在大型视频数据集上进行训练，并逐帧生成视频。其流程如下：

Genie 2 使用自动编码器将视频帧压缩到潜在空间。
基于 Transformer 的自回归模型根据先前的帧和代理的动作来预测下一个潜在帧。
应用潜在扩散过程来从潜在预测中改进并生成真实的视频帧。
将潜在信息解码为视觉框架。

这种架构使 Genie 2 能够在低维潜在空间中运行，并随时间响应用户或代理的输入，并生成逼真且一致的视频输出。因此，它为构建能够适应复杂虚拟世界中各种任务的通用系统提供了潜力。

NVIDIA 的 Сosmos World Foundation 模型

这个模型是我们之前文章分享过不少，NVIDIA 对世界模型的贡献不容低估。这个模型主要用于自动驾驶机器人 Physical AI领域，并将重心转向构建完整的模块化生态系统，即 Cosmos 世界基础模型 (WFM) 平台，旨在训练、模拟和应用基于视频的 Physical AI 世界模型。

该平台包括三个主要模型系列，每个模型系列在实现丰富的视觉世界理解、模拟和推理方面发挥着独特但互补的作用。

Cosmos-Predict1：
它模拟视觉世界随时间的变化。它从超过 1 亿个视频片段中学习到通用的物理世界动态，并可以使用较小的数据集针对特定任务进行微调，以便通过文本、动作或摄像头输入进行控制。有两种类型的模型：
- Diffusion models扩散模型（如 Cosmos-Predict1-7B-Text2World）：通过对潜在空间中的噪声进行去噪，从文本生成视频。
- Autoregressive models自回归模型（例如，Cosmos-Predict1-13B-Video2World）：类似于 GPT，根据先前上下文逐个标记地生成视频。
Cosmos-Transfer1：
它直接构建于 Cosmos-Predict1 之上，并通过强大的自适应多模态控制对其进行了扩展。
Cosmos-Transfer1 允许用户使用多种空间控制信号（例如分割图、深度图、边缘图、模糊视觉输入、高清地图和激光雷达数据）来引导世界生成。
为了有效处理不同的输入，NVIDIA为每种模态添加了单独的 ControlNet 分支，例如一个用于深度，一个用于边缘等等。这些控制分支独立训练，以提高内存效率和灵活性。它还允许进行细粒度控制——例如，强调前景中的边缘以呈现物体细节，或强调背景中的深度以呈现几何形状。
Cosmos-Transfer1 使用时空控制图来动态地为跨空间和时间的不同输入分配权重。
因此，Cosmos-Transfer1 可以在 5 秒内生成 5 秒 720p 视频，实现实时推理。

Cosmos-Reason1：
该模型系列（提供 8B 和 56B 两种参数大小）基于现实世界的物理和环境动力学，推理正在发生的事情、接下来会发生什么以及哪些行动是可行的。
Cosmos-Reason1 使用 Predict1 的模拟世界和 Transfer1 的精细视觉效果来做出明智的决策，从而完善 NVIDIA 物理 AI 系统的循环。它围绕两大推理支柱：
- Physical common sense物理常识：关于空间、时间、物体永久性、物理学等的一般知识。
- Embodied reasoning具身推理：在物理约束（机器人、人类、自动驾驶汽车）下的基于代理的决策。
有趣的是，Cosmos-Reason1 使用针对长序列推理优化的混合 Mamba-MLP-Transformer 。
他们为什么要把不同的架构放在一起？
这里之所以使用它们，是因为：
1）Mamba擅长捕捉长距离依赖关系——这提升了效率；
2）Transformer 模块提供完全自注意力机制，这对于短距离依赖关系和高级抽象至关重要，从而提升了精度；
3）最后，MLP（多层感知器）层在 Mamba 层和 Transformer 层之间提供了强大的非线性转换。它们有助于稳定学习，并成为信息整合的瓶颈，尤其是在跨模态（视频 + 文本）整合方面——这是为了灵活性而设计的。

作为输出，Cosmos-Reason1 生成具有 Chain-of-Thought (CoT 链式思维) 解释和最终操作的自然语言，如上图所示。

总体而言，Cosmos-Predict1、Cosmos-Transfer1 和 Cosmos-Reason1 构成了物理 AI 的集成基础：

Predict1 模拟现实世界动态，
Transfer1 支持跨模态的细粒度可控视频生成，
Reason1 则对物理世界进行解读和推理，从而做出具身决策。

它们共同构建了一个统一的管道，赋能智能代理，使其能够观察、生成并推理复杂的现实世界环境。

最后，我们来看另一个人工智能巨头 Meta 的世界模型。

Meta 的 V-JEPA 2

Meta 和世界模型，是其首席人工智能科学家 Yann LeCun正在倡导世界模型。他认为，未来十年迈向人类水平的人工智能之路将依赖于开发能够进行推理和规划的世界模型。

因此，Meta 的 Facebook AI Research (FAIR) 也转向开发世界模型，以更快地解锁其全部视角。在2025年6月，Meta宣布 V-JEPA 2 (Video Joint Embedding Predictive Architecture 2)正式发布。这是首个基于视频训练的世界模型，它能够实现最先进的理解和预测能力，以及在新环境中进行零样本规划和机器人控制。

V-JEPA 2 利用 100 万小时的互联网规模视频和 100 万张图像，Meta团队使用视觉掩模去噪目标对 V-JEPA 2 视频模型进行了预训练，并通过将该模型与 LLM 主干模型对齐，将其用于动作分类、物体识别、动作预测和视频问答等下游任务。

预训练之后，还可以冻结视频编码器，并在学习到的表征基础上，仅使用 62 小时的机器人数据进行训练就能构建出一个可用于规划和控制的模型 V-JEPA 2-AC，在模型预测控制回路中进行规划，完成下游机器人操控任务。

V-JEPA 2 采用联合嵌入预测架构 (JEPA) 构建，包含两个主要组件：

编码器，接收原始视频并输出嵌入，以捕获有关观察世界状态的有用语义信息。
预测器，它接受视频嵌入和关于要预测的内容的附加上下文，并输出预测的嵌入。

相比V-JEPA 1他的核心是10亿参数的 ViT(Vision Transformer)，采用增强空间分辨率 ( 256 → 384 ) 和时间持续时间 ( 16 → 64 帧）的视频数据训练。

所有这些方面使得 V-JEPA 成为构建世界模型的前瞻性工具。

4.世界模型为什么重要？

前面，我们已经介绍了许多先进的世界模型，例如 Google DeepMind 的 DreamerV3 和 Genie 2、三款 NVIDIA Cosmos WFM 以及 Meta 的V-JEPA，每个模型都有不同的骨干架构和工作原理。

在这个领域还有更多值得探讨的内容。虽然已经取得了许多成就，但世界模型的发展才刚刚起步。例如，我们热切期待这些巨头以及李飞飞的世界实验室还能发明什么，以充分释放此类模型和 spatial intelligence空间智能的潜力。

然而，这肯定需要时间。我们甚至可以说，世界模型的发展阶段与 Agent代理的发展阶段有些相似。这也是因为，对于物理人工智能而言，它们彼此不可或缺。

现在我们可以回答的主要问题是：世界模型为什么重要？

它们解锁了人工智能的几个关键功能：

Planning and decision making规划与决策：借助世界模型，代理可以通过“想象”不同行动策略的未来状态序列并选择最佳方案来进行规划。这正是基于模型的强化学习的精髓，它能够实现高瞻远瞩的决策，并提前规划好许多步骤。在我们熟悉的自动驾驶和人形机器人中可以用来算法控车。
Efficiency效率：在现实世界（或模拟器）中通过反复试验进行学习可能成本高昂或速度缓慢。世界模型允许智能体从模拟经验中学习（一种“心理练习”），从而显著减少所需的现实世界交互。在我们熟悉的自动驾驶和人形机器人中可以高性价比的来虚拟训练算法。
Generalization and flexibility泛化和灵活性：一个好的世界模型能够捕捉环境的普遍属性，从而帮助智能体适应新的情境。通过理解底层动态，智能体能够通过模型推理，处理训练中从未明确遇到的情况。
由于世界模型可以比语言模型吸收更多的原始信息（例如视频流），因此它们有可能提供更丰富的现实基础。
迈向通用智能：许多研究人员将世界模型视为迈向更通用的人工智能认知的基石。它们赋予人工智能系统一种“想象力”和对世界运作方式的直觉理解——这是获得类似人类的常识、推理和解决问题能力的先决条件。

“我们需要能够理解世界的机器；能够记住事物的机器；具有直觉、常识的机器；能够像人类一样进行推理和规划的机器。”
Yann Le Cun

世界模型让数字世界的Agent理解世界的物理法则，但是世界模型仍然缺少因果人工智能 (Causal AI)的整合。

我们将在以后文章中分享和探讨这个引人入胜的话题——它目前主要集中在学术界或利基行业，但对于实现通用人工智能 (AGI) 却至关重要。

参考文章以及图片
1.什么是世界模型? - Alyona Vert.
2.GAIA-2: A Controllable Multi-View Generative World Model for Autonomous Driving - wayve
3.Cosmos World Foundation Model Platform for Physical AI - 英伟达
4.V-JEPA 2：自监督视频模型实现理解、预测和规划 - meta
5.全球自动驾驶模型：初步调查 - Yanchen Guan∗, Haicheng Liao∗, Zhenning Li†, Jia Hu†,Runze Yuan, Yunjian Li, Guohui Zhang,and Chengzhong Xu, Fellow, IEEE

END

作者：Pirate Jack
文章来源：Vehicle
微信公众号：

相关文章推荐

更多汽车行业干货请关注Vehicle专栏欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。

1.世界模型的概念基础

2.世界模型的历史发展

3.当前著名世界模型

4.世界模型为什么重要？

推荐阅读

目录