【CoRL 2018】通过元策略优化的MBRL算法

论文题目：Model-Based Reinforcement Learning via Meta-Policy Optimization

作者及标题信息截图

所解决的问题？

提出一种不依赖于learned dynamic model精度的学习算法Model-Based Meta-Policy-Optimization (MB-MPO),。同样是使用emsemble的方法集成learned model，然后用meta-train的方法学一个policy，使得其能够对任意一个model都具有较好的学习效果。最终使得算法的鲁棒性更强。

背景

之前的大多数model-based方法都集中在trajectory sample和dynamic model train这两个步骤。如用贝叶神经网络的这些方法。贝叶斯的方法一般用于低维空间，神经网络虽然具备用于高维空间的潜力，但是很大程度会依赖模型预测的精度才能取得较好效果。

也有前人工作是解决model学习不准确的问题，与本文最相似的就是EM-TRPO算法，而本文采用的是元学习算法，指在模型不精确的情况下加强其鲁棒性。

所采用的方法？

Model Learning

在学习model的时候，作者学习的是状态的改变量。用的是one-step预测：

$$\min _{\boldsymbol{\phi}_{k}} \frac{1}{\left|\mathcal{D}_{k}\right|} \sum_{\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}, \boldsymbol{s}_{t+1}\right) \in \mathcal{D}_{k}}\left\|\boldsymbol{s}_{t+1}-\hat{f}_{\boldsymbol{\phi}_{k}}\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}\right)\right\|_{2}^{2}$$

为了防止过拟合，作者采用以下三点：

early stopping the training based on the validation loss；
normalizing the inputs and outputs of the neural network；
weight normalization

T.Salimans and D.P.Kingma. Weight Normalization: A Simple Reparameterization to Accelerate Training of Deep Neural Networks. In NIPS, 2 2016.

Meta-Reinforcement Learningon Learned Models

Each task constitutes a different belief about what the dynamics in the true environment could be. 优化目标为：

$$\max _{\boldsymbol{\theta}} \frac{1}{K} \sum_{k=0}^{K} J_{k}\left(\boldsymbol{\theta}_{k}^{\prime}\right) \quad \text { s.t.: } \quad \boldsymbol{\theta}_{k}^{\prime}=\boldsymbol{\theta}+\alpha \nabla_{\boldsymbol{\theta}} J_{k}(\boldsymbol{\theta})$$

其中$J_{k}(\boldsymbol{\theta})$表示是在策略$\pi_{\boldsymbol{\theta}}$和估计的动态模型$\hat{f}_{\boldsymbol{\phi}_{k}}\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}\right)$下的期望回报。

$$J_{k}(\boldsymbol{\theta})=\mathbb{E}_{\boldsymbol{a}_{t} \sim \pi_{\boldsymbol{\theta}}\left(\boldsymbol{a}_{t} | \boldsymbol{s}_{t}\right)}\left[\sum_{t=0}^{H-1} r\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}\right) | \boldsymbol{s}_{t+1}=\hat{f}_{\boldsymbol{\phi}_{k}}\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}\right)\right]$$

MB-MPO