DeepRL · 2020年06月09日

机器人套件控制

报道深度强化学习实验室
作者:Devin
编辑:DeepRL

image.png

DeepMind Control Suite 是一系列稳定、测试良好、易于使用和修改的持续控制任务。这些任务用 Python 编写,物理模型使用 MJCF 定义。标准化动作、观察和奖励结构使得基准简单,学习曲线易于解释。

工具链接:https://github.com/deepmind/dm\_control

演示视频:https://v.qq.com/x/page/i0528...

控制物理世界是通用智能不可缺少的能力,也是先决条件。确实,通用智能唯一的例子就出现在掌控了世界数百万年的灵长类动物身上。

物理控制任务有很多共同特性,应该将它们与行为问题区别对待。不像棋盘游戏、语言和其他符号域(symbolic domain),物理控制任务本质上是状态、时间和动作持续的。它们的动态取决于二阶运动方程,底层状态由位置和速度变量组成,而状态导数是加速度变量。感官信号(即观察结果)通常携带很多有意义的物理单元,随着不同的时间尺度发生改变。

最近十年,强化学习技术在解决视频游戏等困难问题中进展迅速(Mnih, 2015)。街机游戏模式的学习环境(ALE, Bellemare et al. 2012)是这些进展的关键推动因素,提供一系列标准基准用于评估和对比学习算法。DeepMind Control Suite 提供了一套类似的标准基准用于持续控制问题。

推荐阅读

专注深度强化学习前沿技术干货,论文,框架,学习路线等,欢迎关注微信公众号。
深度强化学习实验室.png
更多深度强化学习精选知识请关注深度强化学习实验室专栏,投稿请联系微信 1946738842.

推荐阅读
关注数
2950
内容数
56
专注深度强化学习前沿技术,欢迎关注
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息