DeepRL · 2020年06月04日

深度强化学习十大原则

深度强化学习被成堆的炒作包围着,并且都有足够好的理由!强化学习是一种难以置信的通用范式,原则上,一个鲁棒而高性能的强化学习系统可以处理任何任务,而且将这种范式和深度学习的经验学习能力相结合是很自然的。深度强化学习是最接近于通用人工智能(AGI)的范式之一。不幸的是,它目前还不能真正地奏效。实际上这并不是任何人的错,它更像是一个系统问题。讲述积极结果的故事是很容易的,但实现起来很难的,所以需要某些思想或者原则进行指导,本文将列举AlphaGo代表人David Sliver关于强化学习提出的十大原则。

报道深度强化学习实验室
资料来源:deeplearningindaba
编辑:DeepRL

image.png

客观、量化的评估方法是强化学习进展的重要驱动力:

  • 评估指标的选择决定了研究进展的方向;
  • 这可以说是强化学习项目中最重要的一个决定。

排行榜驱动的研究

  • 确保评估指标紧密对应最终目标;
  • 避免主观评估(如人类评估)。

假设驱动的研究

  • 形成一个假设:Double-Q 学习优于 Q 学习,因为前者减少了向上偏误(upward bias);
  • 在宽泛的条件下验证该假设;
  • 对比同类方法,而不是只与当前最优方法进行对比;
  • 寻求理解,而不是排行榜表现。

image.png

  • 算法的可伸缩性是其相对于资源的性能梯度,给定更多资源,性能如何提高?
  • 资源可以是计算,内存或数据
  • 算法的可扩展性最终决定了它的成功
  • 可伸缩性始终(最终)比起点更重要
  • 给定无限资源,一个好的算法(最终)是最优的

image.png

  • 一个算法的一般性是它在不同RL环境中的性能
  • 避免过度拟合当前任务
  • 寻求可以推广到未知未来环境的算法
  • 我们无法预测未来,但是:
    (1)未来的任务可能至少与当前任务一样复杂
    (2)当前任务遇到的困难很可能会增加
  • 结论:针对多样但实际的RL环境进行测试

image.png

  • 经验(观察,行动,奖励)是RL的数据
    (1)image.png
    (2)代理在环境中的生命周期中积累的经验流
  • 相信经验是唯一的知识来源
    (1)总是有诱惑力来利用我们的人类专业知识(人类数据,功能,
    启发式,约束,抽象,域操作)
  • 从经验中学习似乎是不可能的
    (1)接受RL的核心问题很难
    (2)这是人工智能的核心问题
    (3)值得努力
  • 从长远来看,从经验中学习总能获胜

image.png

  • 智能体应根据自己的经验构建自己的状态

    image.png

  • 智能体状态是前一个状态和新观察的函数

   image.png

  • 它是循环神经网络的隐藏状态。
  • 永远不要根据环境的「真实」状态来定义状态(智能体应该是一个部分可观察马尔可夫链模型)。

image.png

  • 智能体存在于丰富的感觉运动(sensorimotor)数据流中:
    (1)观测结果的数据流输入到智能体中;
    (2)智能体输出动作流。
  • 智能体的动作会影响数据流:
  • 特征控制 => 数据流控制
  • 数据流控制 => 控制未来
  • 控制未来 => 可以最大化任意奖励

image.png

为什么要使用值函数?

  • 价值功能有效地总结/缓存未来
  • 将计划减少到恒定时间查找,而不是指数前瞻
  • 可以独立于其跨度进行计算和学习

学习多种价值功能:

  • 有效地模拟世界的许多方面(控制流),包括后续状态变量
  • 多个时间尺度

避免在原始时间步骤对世界进行建模

image.png

一种有效的规划方法

  • 想象一下接下来会发生什么,模型中状态的样本轨迹
  • 从想象的经验中学习,使用我们应用于实际体验的相同RL算法

现在关注值函数逼近

image.png

  • 不同的网络架构是强大的工具,可以促进:
    (1)丰富的状态代表
    (2)可分辨的记忆
    (3)不同的计划
    (4)分层控制
  • 将算法复杂性推入网络架构
    (1)降低算法的复杂性(如何更新参数)
    (2)提高架构的表现力(参数的作用)

image.png

第一代:良好的老式人工智能

 ○手工预测
 ○什么都不学

第二代:浅学习

 ○手工功能
 ○学习预测

第3代:深度学习

 ○手工算法(优化器,目标,架构……)
 ○端到端地学习功能和预测

第4代:元学习

 ○手工制作
 ○端到端学习算法和功能以及预测)

原则来源:

http://www.deeplearningindaba...\_of\_deep\_rl.pdf

注:本文所使用的人物图片为介绍其事迹或列举其贡献,均为非商业用途。

推荐阅读

专注深度强化学习前沿技术干货,论文,框架,学习路线等,欢迎关注微信公众号。
深度强化学习实验室.png
更多深度强化学习精选知识请关注深度强化学习实验室专栏,投稿请联系微信 1946738842.

推荐阅读
关注数
2950
内容数
56
专注深度强化学习前沿技术,欢迎关注
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息