DeepRL 头像

DeepRL

545 声望
专注于深度强化学习方向,欢迎关注 展开

专注于深度强化学习方向,欢迎关注

收起
关注了
0
粉丝数
2
最新动态
  • 发布了文章 ·
    【DeepMind】首发并开源Alchemy,一种元强化学习(meta-RL)基准环境。

    元学习作为一种增加强化学习的灵活性和样本效率的方法,科研学者对此的关注兴趣迅速增长。然而,该研究领域中的一个问题是缺乏足够的基准测试任务。通常,过去基准的基础结构要么太简单以至于无法引起兴趣,要么就太不明确了以至于无法进行有原则的分析。在当前的工作中,DeepMind科学家介绍了用于元RL研究的新基准:Alc...

    摘要图
  • 发布了文章 ·
    【干货】全面总结(值函数与优势函数)的估计方法

    报道:深度强化学习实验室作者: 高新根博士(DeepRL-Lab研究员)编辑: DeepRL本文章读者能简单理解如下几个问题:简单分析了这些方法偏差与方差的高低特点,比如为何说TD算法高偏差低方差。简单梳理了这些方法之间的关系1.值函数的估计方法1.1 时序差分算法(3) TD算法的特点——高偏差低方差1.2 蒙特卡罗算法2.优势函数的估...

    摘要图
  • 发布了文章 ·
    【论文深度研读报告】MuZero算法过程详解

    这篇文章的研究内容为:具有规划能力的智能体(agents with planning capabilities)。

    摘要图
  • 发布了文章 ·
    如何提高"强化学习算法模型"的泛化能力?

    在深度学习中,模型很容易过拟合到参与训练的数据集。因此,深度学习训练模型的时候通常会将数据集分成训练集和测试集,保证训练的模型在测试集上仍然有很好的性能,即模型的泛化能力。在深度强化学习的应用中,模型的泛化能力也同样重要。本文将介绍最近深度强化学习领域中提高模型泛化能力的一些方法,如域随机化、正...

    摘要图
  • 发布了文章 ·
    iDLab实验室打造Reinforcement Learning and Control课程及讲义

    The Intelligent Driving Laboratory (iDLAB) is a part of the School of Vehicle and Mobility (SVM) at Tsinghua University. This lab focuses on advanced automatic control and machine learning algorithms, and their applications on autonomous driving, connected vehicles, driver assistance and driver b...

    摘要图
  • 发布了文章 ·
    【论文复现】一步步详解用TD3算法通关BipedalWalkerHardcore-v2环境

    熟悉强化学习Gym环境的小伙伴应该对 (BWH-v2环境)  BipedalWalkerHardcore-v2(如图1)并不陌生。在这个环境里,这个Agent需要与Environment互动并学会在不同路况下奔跑行走。由于这个环境是的动作空间是4维连续动作空间,同时Agent需要掌握跑步、跨坑、越障、下阶梯等一系列技能。很多小伙伴表示尽管用目前先进的TD3, S...

    摘要图
  • 发布了文章 ·
    Paper+Code:腾讯开源TLeague框架,基于竞争博弈的分布式多智能体强化学习框架

    基于竞争性自学(CSP)的多智能体强化学习(MARL)最近表现出了出惊人的突破。包括Dota2、《王者荣耀》《雷神之锤III》《星际争霸II》等。尽管取得了成功,但MARL训练特别需要数据,在训练过程中通常需要从环境中看到数十亿个帧,这给研究人员、工程师带来了不小的困难。为了解决这个问题,腾讯团队开发了TLeague的框架...

    摘要图
  • 发布了文章 ·
    强化学习《奖励函数设计: Reward Shaping》详细解读

    在强化学习中,智能体的目标被形式化表征为一种特殊信号,称为收益,它通过环境传递给智能体。在每个时刻,收益都是一个单一标量数值。非正式地说,智能体的目标是最大化其收到的总收益。这意味着需要最大化的不是当前收益,而是长期的累积收益。我们可以将这种非正式想法清楚地表述为收益假设: 我们所有的“目标”或“目...

    摘要图
  • 发布了文章 ·
    【重磅整理】180篇NIPS-2020顶会《强化学习领域》Accept论文大全

    NeurIPS终于放榜,提交数再次创新高,与去年相比增加了38%,共计达到9454篇,总接收1900篇,其中谷歌以169篇傲视群雄,清华大学63篇,南京大学周志华教授团队3篇。论文接收率20.09%较去年有所下降,其中论文主题占比和结构图如下:

    摘要图
  • 发布了文章 ·
    【综述】多智能体强化学习算法理论研究

    虽然目前多智能体强化学习 MARL 在很多领域取得了不错的结果,但很少有相关的理论分析。本综述挑选并汇总了拥有理论支撑的 MARL 算法,主要是以下两种理论框架:

    摘要图
  • 发布了文章 ·
    探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?

    探索 VS 利用,这是强化学习中至关重要的话题。我们希望强化学习中的智能体尽快找到最佳策略。然而,在没有充分探索的情况下就盲目地选择某个策略会带来一定的问题,因为这会导致模型陷入局部最优甚至完全不收敛。目前的强化学习算法朝着回报值最大化的方向优化,而探索仍然更像是一个开放性话题。

    摘要图
  • 关注了专栏 ·
    图标
    极术公开课订阅

    订阅极术公开课,即时获取最新技术公开课信息

  • 关注了专栏 ·
    图标
    嵌入式AI

    嵌入式端AI,包括AI算法在推理框架Tengine,MNN,NCNN,PaddlePaddle及相关芯片上的实现。欢迎加入微信交流群,微信号:gg15319381845(备注:嵌入式)

  • 关注了专栏 ·
    图标
    Arm技术博客

    Arm相关的技术博客,提供最新Arm技术干货,欢迎关注

  • 发布了文章 ·
    83篇文献-万字总结 || 强化学习之路

    深度强化学习是深度学习与强化学习相结合的产物,它集成了深度学习在视觉等感知问题上强大的理解能力,以及强化学习的决策能力,实现了端到端学习。本文对强化学习进行了非常全面的总结,建议收藏。报道:深度强化学习实验室作者:侯宇清,陈玉荣 编辑:DeepRL

    摘要图
  • 发布了文章 ·
    DeepMind发布强化学习库 RLax

    RLax(发音为“ relax”)是建立在JAX之上的库,它公开了用于实施强化学习智能体的有用构建块。。报道:深度强化学习实验室作者:DeepRL 来源:Github/DeepMind

    摘要图
  • 发布了文章 ·
    深度强化学习入门到精通-2020最全资料综述

    本文对强化学习的相关资料从视频,书籍,PPT等做了非常全面的整理,必须关注。报道:深度强化学习实验室作者:岳龙飞 编辑:DeepRL

    摘要图
  • 关注了专栏 ·
    图标
    深度强化学习

    专注深度强化学习前沿技术,欢迎关注

  • 发布了文章 ·
    30+个必知的《人工智能》会议清单

    本文对人工智能不同领域内顶级会议作了汇总,要想了解最新方法和热门研究方向,必须关注。报道:深度强化学习实验室来源:qianli8848作者:DeepRL

    摘要图
认证与成就
获得 14 次点赞
2020年01月14日 加入
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
Arm中国学堂公众号
关注Arm中国学堂
实时获取免费 Arm 教学资源信息
Arm中国招聘公众号
关注Arm中国招聘
实时获取 Arm 中国职位信息