强化学习下最新的文章 - 极术社区 - 连接开发者与智能计算生态

强化学习

强化学习（英语：Reinforcement learning，简称 RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。

关注标签

关注数

3

内容数

481

提问题写文章

标签主页标签问答标签文章

相关标签

标签文章

最新的 · 最热的

深度学习与先进智能决策 · 2020年04月15日

【CoRL 2018】通过元策略优化的MBRL算法

论文题目：Model-Based Reinforcement Learning via Meta-Policy Optimization

0 阅读 2.1k
深度学习与先进智能决策 · 2020年04月15日

【NIPS 2018】循环World模型促进策略演变

论文题目：Recurrent World Models Facilitate Policy Evolution

3 阅读 2.3k
深度学习与先进智能决策 · 2020年04月15日

【ICLR2020】基于模型的强化学习算法玩Atari【附代码】

model-free的强化学习算法已经在Atari游戏上取得了巨大成功，但是与人类选手相比，model-free的强化学习算法需要的交互数据...

1 阅读 2.3k
脑极体 · 2020年03月30日

当AI开始“踢脏球”，你还敢信任强化学习吗？

足球机器人排成一排向球门发起射击，但守门员却并没有准备防守，而是一屁股倒在地上开始胡乱摆动起了双腿。然后，前锋跳了一段十分令人...

6 阅读 1.9k
矩池云 · 2020年03月27日

矩池云 | 使用LightGBM来预测分子属性

今天给大家介绍提升方法(Boosting), 提升算法是一种可以用来减小监督式学习中偏差的机器学习算法。

3 阅读 1.9k
DeepRL · 2020年03月25日

顶会论文 || 65篇"IJCAI"深度强化学习论文汇总

A Dual Reinforcement Learning Framework for Unsupervised Text Style Transfer: Fuli Luo, Peng Li, Jie Zhou, Pengcheng Yang, Baob...

1 阅读 2.3k
ronghuaiyang · 2020年03月25日

图解自监督学习，人工智能蛋糕中最大的一块

如果人工智能是一块蛋糕，那么蛋糕的大部分是自监督学习，蛋糕上的糖衣是监督学习，蛋糕上的樱桃是强化学习。作者：Amit Chaudhary编译...

4 阅读 2.7k
DeepRL · 2020年03月25日

《十个关键点》PPT汇总|| 强化学习和最优控制的81页

本文作者来自于宾夕法尼亚州立大学，总结了《十个关键点》，强化学习和最优控制的81页PPT汇总。来源：book.yunzhan365报道：深度强化学...

1 阅读 2k
深度学习与先进智能决策 · 2020年03月25日

【Science】颠覆三观的超强聚类算法

这篇文章是自己在上大数据分析课程时老师推荐的一篇文章，当时自己听着也是对原作者当年的的思路新奇非常敬佩，相信很多伙...

1 阅读 3.2k
深度学习与先进智能决策 · 2020年03月25日

【NeurIPS 2019】最大熵的蒙特卡洛规划算法

将其扩展到MCTS上，得到了 Maximum Entropy for Tree Search (MENTS)算法。

1 阅读 2.5k
深度学习与先进智能决策 · 2020年03月25日

【ICLR2020】通过强化学习和稀疏奖励进行模仿学习

论文题目：SQIL: Imitation Learning via Reinforcement Learning with Sparse Rewards

0 阅读 3.9k
深度学习与先进智能决策 · 2020年03月25日

【5分钟 Paper】Reinforcement Learning with Deep Energy-Based Policies

论文题目：Reinforcement Learning with Deep Energy-Based Policies

0 阅读 3k
深度学习与先进智能决策 · 2020年03月25日

腾讯 “绝悟”论文披露技术细节。

【论文阅读】Mastering Complex Control in MOBA Games with Deep Reinforcement Learning

0 阅读 4k
深度学习与先进智能决策 · 2020年03月25日

基于Stochastic Policy的深度强化学习方法

在开始说基于Stochastic Policy的方法之前，我们需要了解一下Policy Gradient的方法。在Policy Gradient里面有一个非常重要...

0 阅读 2k
深度学习与先进智能决策 · 2020年03月25日

强化学习中策略梯度算法

在强化学习中的值函数近似算法文章中有说怎么用参数方程去近似state value ，那policy能不能被parametrize呢？其实policy可...

0 阅读 1.9k
深度学习与先进智能决策 · 2020年03月25日

强化学习中的值函数近似算法

在开始说值函数近似方法之前，我们先回顾一下强化学习算法。强化学习算法主要有两大类Model-based 的方法和Model-free 的方...

0 阅读 2.6k
深度学习与先进智能决策 · 2020年03月25日

强化学习中的无模型控制

在上一篇文章强化学习中的无模型预测中，有说过这个无模型强化学习的预测问题，通过TD、n-step TD或者MC的方法能够获得值函...

0 阅读 2.1k
深度学习与先进智能决策 · 2020年03月25日

强化学习中的无模型预测

在大多是强化学习(reinforcement learning RL)问题中，环境的model都是未知的，也就无法直接做动态规划。一种方法是去学MDP...

0 阅读 2.7k
深度学习与先进智能决策 · 2020年03月25日

动态规划与策略迭代、值迭代

上一节我们说了马尔可夫决策过程，它是对完全可观测的环境进行描述的，也就是观测到的内容完整决定了决策所需要的特征。马...

0 阅读 3.6k
深度学习与先进智能决策 · 2020年03月25日

马尔可夫决策过程与贝尔曼方程

马尔可夫决策过程 (Markov Decision Process，MDP)是序贯决策(sequential decision)的数学模型，一般用于具备马尔可夫性的...

0 阅读 3.6k

上一页
1
…
17
18
19
20
21
下一页

本月贡献榜

超神经HyperAI

贡献 95 声望

极术微信服务号

关注极术微信号
实时接收点赞提醒和评论通知

安谋科技学堂公众号

关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源

安谋科技招聘公众号

关注安谋科技招聘
实时获取安谋科技中国职位信息