深度学习与先进智能决策 - 极术社区 - 连接开发者与智能计算生态

深度学习与先进智能决策

175 声望

公众号：深度学习与先进智能决策展开

关注他

关注了

2

粉丝数

291

他的主页他的提问他的回答他的文章他的关注他的粉丝

他的收藏声望记录

最新动态

发布了文章 · 2020年04月16日

深度学习领域资源汇总清单【框架、数据集、期刊】

&emsp;&emsp;大多数时候，人们使用不同的深度学习框架和标准开发工具箱。(SDKs)，用于实施深度学习方法，具体如下：
发布了文章 · 2020年04月15日

【NIPS 2017】基于深度强化学习的想象力增强智能体

论文题目：Imagination-Augmented Agents for Deep Reinforcement Learning
发布了文章 · 2020年04月15日

伯克利，斯坦福，宾大联合发表：从观察和交互中学习预测模型

论文题目：Learning Predictive Models From Observation and Interaction
发布了文章 · 2020年04月15日

【ICLR 2018】模型集成的TRPO算法【附代码】

论文题目：model-ensemble trust-region policy optimization
发布了文章 · 2020年04月15日

【CoRL 2018】通过元策略优化的MBRL算法

论文题目：Model-Based Reinforcement Learning via Meta-Policy Optimization
发布了文章 · 2020年04月15日

【NIPS 2018】循环World模型促进策略演变

论文题目：Recurrent World Models Facilitate Policy Evolution
发布了文章 · 2020年04月15日

【ICLR2020】基于模型的强化学习算法玩Atari【附代码】

&emsp;&emsp;model-free的强化学习算法已经在Atari游戏上取得了巨大成功，但是与人类选手相比，model-free的强化学习算法需要的交互数据往往大地多。其根本原因在于人类选手能够很容易学习到游戏的大概运行规律，从而进行预测规划。因此为了达到用少量数据学习控制Atari游戏的目的，作者提出了一种基于video prediction ...
发布了文章 · 2020年03月25日

【Science】颠覆三观的超强聚类算法

&emsp;&emsp;这篇文章是自己在上大数据分析课程时老师推荐的一篇文章，当时自己听着也是对原作者当年的的思路新奇非常敬佩，相信很多伙伴也会非常感兴趣，就来做个分享吧。原论文于2014年发表于Science期刊杂志上。
发布了文章 · 2020年03月25日

【NeurIPS 2019】最大熵的蒙特卡洛规划算法

将其扩展到MCTS上，得到了 Maximum Entropy for Tree Search (MENTS)算法。
发布了文章 · 2020年03月25日

【ICLR2020】通过强化学习和稀疏奖励进行模仿学习

论文题目：SQIL: Imitation Learning via Reinforcement Learning with Sparse Rewards
发布了文章 · 2020年03月25日

【5分钟 Paper】Reinforcement Learning with Deep Energy-Based Policies

论文题目：Reinforcement Learning with Deep Energy-Based Policies
关注了专栏 · 2020年03月25日

深度学习与先进智能决策

主要研究分享深度学习、机器博弈、强化学习等相关内容！公众号：深度学习与先进智能决策
发布了文章 · 2020年03月25日

腾讯 “绝悟”论文披露技术细节。

【论文阅读】Mastering Complex Control in MOBA Games with Deep Reinforcement Learning
发布了文章 · 2020年03月25日

基于Stochastic Policy的深度强化学习方法

&emsp;&emsp;在开始说基于Stochastic Policy的方法之前，我们需要了解一下Policy Gradient的方法。在Policy Gradient里面有一个非常重要的定理：Policy Gradient Theorem。
发布了文章 · 2020年03月25日

强化学习中策略梯度算法

&emsp;&emsp;在强化学习中的值函数近似算法文章中有说怎么用参数方程去近似state value ，那policy能不能被parametrize呢？其实policy可以被看成是从state到action的一个映射$a \leftarrow \pi(s)$，
发布了文章 · 2020年03月25日

强化学习中的值函数近似算法

&emsp;&emsp;在开始说值函数近似方法之前，我们先回顾一下强化学习算法。强化学习算法主要有两大类Model-based 的方法和Model-free 的方法，model based 的方法也可以叫做 dynamic programming ：
发布了文章 · 2020年03月25日

强化学习中的无模型控制

&emsp;&emsp;在上一篇文章强化学习中的无模型预测中，有说过这个无模型强化学习的预测问题，通过TD、n-step TD或者MC的方法能够获得值函数，那拿到value之后如何获取policy呢？
发布了文章 · 2020年03月25日

强化学习中的无模型预测

&emsp;&emsp;在大多是强化学习(reinforcement learning RL)问题中，环境的model都是未知的，也就无法直接做动态规划。一种方法是去学MDP，在这个系列的理解强化学习中的策略迭代和值迭代这篇文章中有具体思路。但这种做法还是会存在很多问题，就是在sample过程中会比较麻烦，如果你随机sample的话就会有某些state你很难s...
发布了文章 · 2020年03月25日

动态规划与策略迭代、值迭代

&emsp;&emsp;上一节我们说了马尔可夫决策过程，它是对完全可观测的环境进行描述的，也就是观测到的内容完整决定了决策所需要的特征。马尔可夫决策过程可以用方程组求解简单问题，但是对于复杂一点的问题，一般通过迭代的思想对其进行求解。动态规划是非常有效的求解马尔可夫决策过程的方法。
发布了文章 · 2020年03月25日

马尔可夫决策过程与贝尔曼方程

&emsp;&emsp;马尔可夫决策过程 (Markov Decision Process，MDP)是序贯决策(sequential decision)的数学模型，一般用于具备马尔可夫性的环境中。最早的研究可以追溯到最优控制 (optimal control)问题上，1957年，美国学者Richard Bellman通过离散随机最优控制模型首次提出了离散时间马尔可夫决策过程。1960年和1962年，美...
点击载入更多

认证与成就

获得 35 次点赞

2020年01月28日加入

举报他

极术微信服务号

关注极术微信号
实时接收点赞提醒和评论通知

安谋科技学堂公众号

关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源

安谋科技招聘公众号

关注安谋科技招聘
实时获取安谋科技中国职位信息