【NIPS 2018】循环World模型促进策略演变

论文题目：Recurrent World Models Facilitate Policy Evolution

作者及标题信息

所解决的问题？

从world model中学一个policy，并将迁移到real world。

背景

人类通常是通过自己的感官数据建立自己对这个世界的认知模型。比如看同一张图片，不同的人能够得到不同的抽象理解，而这个理解跟他自己之前建立的世界观存在相关性。这种对世界的认知能够帮助我们，遇到问题或者是危险的时候，快速做出反应。

所采用的方法？

作者结合RNN和概率建模的方法做的。在这之前基于模型的强化学习算法能够取得比较好的效果，但是很多仍然在真实的环境中进行训练。而作者提出一种在生成的world model中学policy，并将其迁移到真实环境中。

Flow diagram showing how V, M, and C interacts with the environment (left).

VAE用于压缩信息得到latent vector。RNN用于输出一个概率密度函数$p(z)$ (混合高斯模型做的)。RNN建模表示为$P(z_{t+1}|a_{t},z_{t},h_{t})$，具体关系如上图所示。控制器用的Covariance-Matrix Adaptation Evolution Strategy (CMA-ES) 。

总的来说就是基于观测的隐变量，对上一帧隐变量的预测，以及动作去预测下一帧隐变量。然后当前状态的隐变量和预测的状态隐变量来共同决定所选取哪个动作。

算法流程