DeepMind 发布强化学习通用算法 DreamerV3，AI 成精自学捡钻石

内容一览：强化学习是多学科领域的交叉产物，其本质是实现自动决策且可做连续决策。本文将介绍 DeepMind 最新研发成果：扩大强化学习应用范围的通用算法 DreamerV3。
关键词：强化学习 DeepMind 通用算法

北京时间 1 月 12 日，DeepMind 官方推特发文，正式官宣 DreamerV3，这是首个能在游戏「我的世界」(Minecraft) 中不参考人类数据，就能从头开始收集钻石的通用算法，解决了 AI 领域中的又一重要挑战。

DeepMind 在推特官宣 DreamerV3

强化学习扩展成问题，发展还需通用算法强化学习使得计算机可以通过互动解决某一任务，如 AlphaGo 在围棋比赛中战胜人类，OpenAI Five 在 Dota 2 中战胜业余人类玩家。

OpenAI Five 在比赛中战胜人类玩家研发团队与人类玩家合照

然而，要想将算法应用于新的应用场景，如从棋盘游戏转到视频游戏或机器人任务，就需要工程师不断开发专门的算法 (specialized algorithms)，如连续控制、稀疏奖励、图像输入以及 spatial environments 等。

这要求大量的专业知识和计算资源来微调算法，极大阻碍了模型的扩展。创建无需调优就能学习掌握新 domain 的通用算法，成为扩大强化学习应用范围、解决决策问题的重要途径。

由此，由 DeepMind 和多伦多大学联合研发的 DreamerV3 应运而生。

DreamerV3：基于世界模型的通用算法

DreamerV3 是一种基于世界模型 (World Model) 的通用和可扩展的算法，能在固定超参数的前提下，应用于广泛域 (domain)，比专门的算法更出色。

这些 domain 包括连续动作 (continuous action) 和离散动作 (discrete action)，视觉输入和低维输入，2D 世界和 3D 世界，不同的数据预算、奖励频率和奖励尺度等。

DreamerV3 通用算法与专门算法性能对比DreamerV3 由 3 个从回放经验 (replayed experience) 中同时训练，且不共享梯度的神经网络组成：
1、world model：预测潜在动作的未来结果
2、critic：判断每种情况的 value
3、actor：学习如何使有价值的情况成为可能

DreamerV3 的训练过程

如上图所示，world model 将 sensory input 编码为一个离散表征 zt。zt 由一个具备 recurrent state ht 的序列模型预测得出，并给出动作 at。input 被重构为学习信号 (learning signal) 进而 shape 表征。

actor 和 critic 从 world model 预测的抽象表征 trajectory 中学习。为了更好地适应跨域任务，这些组件需要适应不同的信号强度 (signal magnitudes)，并在其目标中稳健地平衡 terms。

工程师在超过 150 个固定参数的任务上对 DreamerV3 进行了测试，并与文献中记载的最佳方法进行比较，实验表明，DreamerV3 对于不同 domain 的任务，均具备较高通用性和可扩展性。

基准概览所有 agent 都是在 NVIDIA V100 GPU 上训练DreamerV3 在 7 个基准测试中都取得了优异成绩，并在 state 和 image 的 continuous control、BSuite 和 Crafter 上都建立了新的 SOTA 水平。

然而 DreamerV3 仍然具备一定的局限性，例如当 environment steps 在 1 亿以内时，算法并不能像人类玩家一样，在所有场景中都捡到钻石，而是偶尔捡到。

站在巨人的肩膀上，回顾Dreamer家族发展史

一代目：Dreamer

发布时间：2019 年 12 月
参与机构：多伦多大学、DeepMind、Google Brain
论文地址：https://arxiv.org/pdf/1912.01...
算法简介：

Dreamer 是一个强化学习 agent，可以仅通过 latent imagination 从图像中解决 long-horizon 任务。

它基于模型预测的反向传播，来利用 world model 实现高效的行为学习。在 20 个极具挑战性的视觉控制任务中，Dreamer 在数据效率、计算时间和最终性能方面均超过了当时的主流方法。

Dreamer 与当时主流方法的性能比较Dreamer 继承了 PlaNet 的数据效率，同时超过了当时最好的 model-free agent 的渐近性能 (asymptotic performance)。5×106 个 environment step 后，Dreamer 在各个任务中的平均性能达到了 823，而 PlaNet 仅为 332，最高的 model-free D4PG agent 在 108 步之后为 786。

二代目：DreamerV2

发布时间：2020 年 10 月
参与机构：Google Research、DeepMind、多伦多大学
论文地址：https://arxiv.org/pdf/2010.02...
算法简介：DreamerV2 是一个强化学习 agent，可以从 world model 紧凑隐空间 (compact latent space) 的预测中学习行为。

注：该 world model 使用离散表征，并且与策略分开训练。

DreamerV2 是第一个通过在单独训练的 world model 中学习行为，在 Atari 基准的 55 项任务中达到人类水平的 agent。在相同的计算预算和 wall-clock time 情况下，DreamerV2 达到了 2 亿帧，超过了顶级 single-GPU agents IQN 及 Rainbow 的最终性能。

此外，DreamerV2 也适用于有连续动作的任务，它学习了一个复杂的类人型机器人的 world model，只通过像素输入就解决了站立和行走问题。

玩家在 Atari 基准 55 个游戏的正则化中位数得分