深度强化学习十大原则

深度强化学习被成堆的炒作包围着，并且都有足够好的理由！强化学习是一种难以置信的通用范式，原则上，一个鲁棒而高性能的强化学习系统可以处理任何任务，而且将这种范式和深度学习的经验学习能力相结合是很自然的。深度强化学习是最接近于通用人工智能（AGI）的范式之一。不幸的是，它目前还不能真正地奏效。实际上这并不是任何人的错，它更像是一个系统问题。讲述积极结果的故事是很容易的，但实现起来很难的，所以需要某些思想或者原则进行指导，本文将列举AlphaGo代表人David Sliver关于强化学习提出的十大原则。
报道：深度强化学习实验室
资料来源：deeplearningindaba
编辑：DeepRL

客观、量化的评估方法是强化学习进展的重要驱动力：

评估指标的选择决定了研究进展的方向；
这可以说是强化学习项目中最重要的一个决定。

排行榜驱动的研究

确保评估指标紧密对应最终目标；
避免主观评估（如人类评估）。

假设驱动的研究

形成一个假设：Double-Q 学习优于 Q 学习，因为前者减少了向上偏误（upward bias）；
在宽泛的条件下验证该假设；
对比同类方法，而不是只与当前最优方法进行对比；
寻求理解，而不是排行榜表现。

算法的可伸缩性是其相对于资源的性能梯度，给定更多资源，性能如何提高？
资源可以是计算，内存或数据
算法的可扩展性最终决定了它的成功
可伸缩性始终（最终）比起点更重要
给定无限资源，一个好的算法（最终）是最优的

一个算法的一般性是它在不同RL环境中的性能
避免过度拟合当前任务
寻求可以推广到未知未来环境的算法
我们无法预测未来，但是：
（1）未来的任务可能至少与当前任务一样复杂
（2）当前任务遇到的困难很可能会增加
结论：针对多样但实际的RL环境进行测试

经验（观察，行动，奖励）是RL的数据
（1）
（2）代理在环境中的生命周期中积累的经验流
相信经验是唯一的知识来源
（1）总是有诱惑力来利用我们的人类专业知识（人类数据，功能，
启发式，约束，抽象，域操作）
从经验中学习似乎是不可能的
（1）接受RL的核心问题很难
（2）这是人工智能的核心问题
（3）值得努力
从长远来看，从经验中学习总能获胜

智能体应根据自己的经验构建自己的状态
智能体状态是前一个状态和新观察的函数

它是循环神经网络的隐藏状态。
永远不要根据环境的「真实」状态来定义状态（智能体应该是一个部分可观察马尔可夫链模型）。

智能体存在于丰富的感觉运动（sensorimotor）数据流中：
（1）观测结果的数据流输入到智能体中；
（2）智能体输出动作流。
智能体的动作会影响数据流：
特征控制 => 数据流控制
数据流控制 => 控制未来
控制未来 => 可以最大化任意奖励

为什么要使用值函数？

价值功能有效地总结/缓存未来
将计划减少到恒定时间查找，而不是指数前瞻
可以独立于其跨度进行计算和学习

学习多种价值功能：

有效地模拟世界的许多方面（控制流），包括后续状态变量
多个时间尺度

避免在原始时间步骤对世界进行建模

一种有效的规划方法

想象一下接下来会发生什么，模型中状态的样本轨迹
从想象的经验中学习，使用我们应用于实际体验的相同RL算法

现在关注值函数逼近

不同的网络架构是强大的工具，可以促进：
（1）丰富的状态代表
（2）可分辨的记忆
（3）不同的计划
（4）分层控制
将算法复杂性推入网络架构
（1）降低算法的复杂性（如何更新参数）
（2）提高架构的表现力（参数的作用）

第一代：良好的老式人工智能

○手工预测
○什么都不学

第二代：浅学习

○手工功能
○学习预测

第3代：深度学习

○手工算法（优化器，目标，架构……）
○端到端地学习功能和预测

第4代：元学习

○手工制作
○端到端学习算法和功能以及预测）

原则来源：

http://www.deeplearningindaba...\_of\_deep\_rl.pdf

注：本文所使用的人物图片为介绍其事迹或列举其贡献，均为非商业用途。

推荐阅读
基于强化学习的自动交易系统研究与发展综述
DeepMind发布强化学习库 RLax
AAAI-2020 || 52篇深度强化学习accept论文汇总
专注深度强化学习前沿技术干货，论文，框架，学习路线等，欢迎关注微信公众号。

更多深度强化学习精选知识请关注深度强化学习实验室专栏，投稿请联系微信 1946738842.

推荐阅读

目录