【NIPS 2018】循环World模型促进策略演变

  • 论文题目:Recurrent World Models Facilitate Policy Evolution

作者及标题信息

所解决的问题?

从world model中学一个policy,并将迁移到real world。

背景

人类通常是通过自己的感官数据建立自己对这个世界的认知模型。比如看同一张图片,不同的人能够得到不同的抽象理解,而这个理解跟他自己之前建立的世界观存在相关性。这种对世界的认知能够帮助我们,遇到问题或者是危险的时候,快速做出反应。

所采用的方法?

作者结合RNN和概率建模的方法做的。在这之前基于模型的强化学习算法能够取得比较好的效果,但是很多仍然在真实的环境中进行训练。而作者提出一种在生成的world model中学policy,并将其迁移到真实环境中。

Flow diagram showing how V, M, and C interacts with the environment (left).

VAE用于压缩信息得到latent vector。RNN用于输出一个概率密度函数$p(z)$ (混合高斯模型做的)。RNN建模表示为$P(z_{t+1}|a_{t},z_{t},h_{t})$,具体关系如上图所示。控制器用的Covariance-Matrix Adaptation Evolution Strategy (CMA-ES) 。

总的来说就是基于观测的隐变量,对上一帧隐变量的预测,以及动作去预测下一帧隐变量。然后当前状态的隐变量和预测的状态隐变量来共同决定所选取哪个动作。

算法流程

这里作者期望RNN能够学的环境的编码之后隐变量与动作交互数据的潜在规律(因为RNN的输出是含有所有之前的历史信息的),然后用于辅助决策。VAE和RNN的训练都可以不需要奖励信息,只给交互数据就可以。

这么做的原因就是先对环境信息做了一个特征抽取,然后基于这个抽取的特征再用于训练得到policy,好处在于做了特征提取之后,观测的有效信息比较多,特征比较明显,那当然再做policy的学习会更快。

取得的效果?

实验结果

基于手工提取特征的智能体得分是V model 632分上下浮动。

实验效果

实验结果

所出版信息?作者信息?

David Ha谷歌大脑成员,主要研究机器智能。

David Ha

其它参考链接

推荐阅读
关注数
282
内容数
36
主要研究分享深度学习、机器博弈、强化学习等相关内容!公众号:深度学习与先进智能决策
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息