机器人套件控制

报道：深度强化学习实验室
作者：Devin
编辑：DeepRL

DeepMind Control Suite 是一系列稳定、测试良好、易于使用和修改的持续控制任务。这些任务用 Python 编写，物理模型使用 MJCF 定义。标准化动作、观察和奖励结构使得基准简单，学习曲线易于解释。

工具链接：https://github.com/deepmind/dm\_control

演示视频：https://v.qq.com/x/page/i0528...

控制物理世界是通用智能不可缺少的能力，也是先决条件。确实，通用智能唯一的例子就出现在掌控了世界数百万年的灵长类动物身上。

物理控制任务有很多共同特性，应该将它们与行为问题区别对待。不像棋盘游戏、语言和其他符号域（symbolic domain），物理控制任务本质上是状态、时间和动作持续的。它们的动态取决于二阶运动方程，底层状态由位置和速度变量组成，而状态导数是加速度变量。感官信号（即观察结果）通常携带很多有意义的物理单元，随着不同的时间尺度发生改变。

最近十年，强化学习技术在解决视频游戏等困难问题中进展迅速（Mnih, 2015）。街机游戏模式的学习环境（ALE, Bellemare et al. 2012）是这些进展的关键推动因素，提供一系列标准基准用于评估和对比学习算法。DeepMind Control Suite 提供了一套类似的标准基准用于持续控制问题。

推荐阅读
基于强化学习的自动交易系统研究与发展综述
DeepMind发布强化学习库 RLax
AAAI-2020 || 52篇深度强化学习accept论文汇总
专注深度强化学习前沿技术干货，论文，框架，学习路线等，欢迎关注微信公众号。

更多深度强化学习精选知识请关注深度强化学习实验室专栏，投稿请联系微信 1946738842.

推荐阅读

目录