【ICLR2020】基于模型的强化学习算法玩Atari【附代码】

论文题目：Model Based Reinforcement Learning for Atari

作者及标题信息

所解决的问题？

model-free的强化学习算法已经在Atari游戏上取得了巨大成功，但是与人类选手相比，model-free的强化学习算法需要的交互数据往往大地多。其根本原因在于人类选手能够很容易学习到游戏的大概运行规律，从而进行预测规划。因此为了达到用少量数据学习控制Atari游戏的目的，作者提出了一种基于video prediction models的model based Simulated Policy Learning (SimPLe)算法，来解决需要大量交互数据的问题。在所学到的model上得到的policy，用于原始model上能够取得较好效果。主要贡献在于将planning算法与learned model结合起来，并取得了SOTA效果。

背景

人类选手可以在几分钟内学会玩Atari游戏，而及时最好的model-free强化学习方法也需要成百上千步迭代尝试才能达到，需要几周的训练时间。而人类选手能够做地这么好的原因就是：人类已经具备一些先验知识能够预测游戏接下来的走势。也有一些结合深度学习预测下一帧数据的方法，或者是预测奖励的方法，但是它们大多数都是用于model-free的强化学习算法上。model-free的强化学习算法做地比较好的有：Rainbow和IMPALA两大算法。而基于model-based的强化学习方法能够大大提高采样效率，以往的方法大多都在学习潜在的动力学方程，以及一些新奇的结合好奇心、反事实等东西做一些创新，以及其它的一些改进方法。

所采用的方法？

使用video prediction技术学习model，并且基于所学到的model训练得到policy。

预测Video

这一部分主要是依据Junhyuk Oh 2015年在Atari所做的Video prediction的工作，和Silvia Chiappa在2017年所做的Recurrent environment simulators这两篇文章来做的。本文作者主要是focus在学习如何预测才能更好地玩游戏，而不是在学习如何预测，而学习出来的model用于得到policy，并且在原环境model上也能取得较好效果。

Felix Leibfried在 2016 年将Video prediction的工作扩展到Video和reward的同时预测，但是并没有基于预测结果去做得到policy的这部分工作。大多数的这些类似的工作(包括本文)都是在隐式地编码游戏的模型。

为了获取更好的预测video的网络结构，作者基于models developed in the context of robotics和下述文献提出了stochastic video prediction model。

Aäron van den Oord, Oriol Vinyals, and Koray Kavukcuoglu. Neural discrete representation learning. In Isabelle Guyon, Ulrike von Luxburg, Samy Bengio, Hanna M. Wallach, Rob Fergus, S. V. N. Vishwanathan, and Roman Garnett (eds.), Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, 4-9 December 2017, Long Beach, CA, USA, pp. 6306–6315, 2017.
Lukasz Kaiser and Samy Bengio. Discreteauto encoders for sequence models. CoRR, abs/1801. 09797, 2018.

predictive model has stochastic latent variables so it can be applied in highly stochastic environments