Skip to content

Latest commit

 

History

History
executable file
·
245 lines (116 loc) · 11.2 KB

reinforcement-learning.md

File metadata and controls

executable file
·
245 lines (116 loc) · 11.2 KB

强化学习

===

深度强化学习入门

强化学习怎么入门好?

必须推荐王树森、黎彧君、张志华的新书《深度强化学习》,已经正式出版。这是一本正式出版前就注定成为经典的入门书籍——其在线公开课视频播放量超过一百万次,助力数万“云学生”——更加高效、方便、系统地学习相关知识。课程主页这里:https://github.com/wangshusen/DRL 还有对应的在线公开课视频和代码,B站、Github都有。下文内容来自作者王树森写的前言。

强化学习怎么入门好?

1.看李宏毅的强化学习视频-b站随便找一个最新最全的;

2.看郭宪大佬的《深入浅出强化学习》-知乎有他的专栏文章;

3.代码刷openai的spinningup。

目前我认为最简洁最不走弯路的方法。至少节省大家半年的随机探索时间

其他的教材对于强化的公式推导不够透彻,

其他几门视频课难度高,不适合入门;

其他的代码库,新手根本看不懂。

最后贴上我基于spinup封装好的一个强化学习库:

https://github.com/kaixindelele/DRL-tensorflow

https://github.com/kaixindelele/DRLib

地图:

全网首发|| 最全深度强化学习资料(永久更新)

NeuronDance/DeepRL

NeuronDance/DeepRL/A-Guide-Resource-For-DeepRL/

视频课程

【莫烦Python】强化学习 Reinforcement Learning

短小精悍

李宏毅】2020 最新课程 (完整版) 强化学习

看这个,讲的很好很清楚,比如其中强化学习策略梯度的部分。

李宏毅深度强化学习(国语)课程(2018) ppo

David Silver 增强学习——Lecture 6 值函数逼近

有空看这个,那个陈达贵的视频ppt其实就是这个。

B站上deepmind的大佬David alived的强化学习的视频,点击率甚低。看来很多国人不知道阿发狗李的研发团队的首席科学家啊。

[CS294]

初学者非常不推荐看CS294,因为真的很难,可以看David Silver的课程

[CS234]是什么?

白话强化学习

这个知乎专栏讲的对各种知识点的直觉理解和分析都特别好。

强化学习路线推荐及资料整理

第一个是李宏毅老师21年最新的深度学习课程,将最新的内容都纳入了教学大纲

第二个是多智能体强化学习领域的:UCL的汪军老师新开的课程

仿真环境

有哪些常用的多智能体强化学习仿真环境?

Link:https://github.com/geek-ai/MAgent

这个是UCL汪军老师团队Mean Field 论文里用到的环境,主要研究的是当环境由大量智能体组成的时候的竞争和协作问题。也可以看成是复杂的Grid World环境。Render如下:

强化学习与控制

强化学习无人机交互环境汇总

作者在无人机姿态控制上使用PPO训练取得了比PID更好的效果,并成功从虚拟环境迁移到了现实世界。

【重磅推荐: 强化学习课程】清华大学李升波老师《强化学习与控制》

**《强化学习与控制》**这一门课程包括11节。

第1讲介绍RL概况,包括发展历史、知名学者、典型应用以及主要挑战等。

第2讲介绍RL的基础知识,包括定义概念、自洽条件、最优性原理问题架构等。

第3讲介绍免模型学习的蒙特卡洛法,包括Monte Carlo估计,On-policy/off-policy,重要性采样等。

第4讲介绍免模型学习的时序差分法,包括它衍生的Sarsa,Q-learning,Expected Sarsa等算法。

第5讲介绍带模型学习的动态规划法,包括策略迭代、值迭代、收敛性原理等。

第6讲介绍间接型RL的函数近似方法,包括常用近似函数,值函数近似,策略函数近似以及所衍生的Actor-critic架构等。

第7讲介绍直接型RL的策略梯度法,包括各类Policy Gradient, 以及如何从优化的观点看待RL等。

第8讲介绍深度强化学习,即以神经网络为载体的RL,包括深度化典型挑战、经验性处理技巧等。

第9讲介绍带模型的强化学习,即近似动态规划,包括离散时间系统的ADP,ADP与MPC的关联分析等。

第10讲介绍有限时域的近似动态规划,同时介绍了状态约束的处理手段以及它与可行性之间的关系

第11讲介绍RL的各类拾遗,包括POMDP、鲁棒性、多智能体、元学习、逆强化学习以及训练平台等。

强化学习和最优控制的《十个关键点》81页PPT汇总

多智能体强化学习

【DeepMind】多智能体学习231页PPT总结

最近在写多智能体强化学习工作绪论,请问除了 MADDPG 以及 MAPPO 还有哪些算法?

专题

Transformer+RL

Transformer + RL专题 | 究竟是强化学习魔高一尺,还是Transformer道高一丈 (第1期)

Transformer + RL专题|强化学习中时序建模的千层套路(第2期)

Transformer + RL 专题|大力出奇迹,看 Transformer 如何征服超参数搜索中的决策问题 (第3期)

论坛

中科院自动化所2020智能决策论坛报告ppt: 论坛报告回放:https://space.bilibili.com/551888585/channel/detail?cid=167587 【柯良军】链接:https://pan.baidu.com/s/18uM3GU8HpZ2OAUIoN0timQ 提取码:rb4o 【章宗长】链接:https://pan.baidu.com/s/1hg-YPfcjCaMnUIogZXMmTQ 提取码:dhdf 【余超】链接:https://pan.baidu.com/s/1ZnU7oe8xB6YJgyVC1frY6Q 提取码:h42p 【温颖】链接:https://pan.baidu.com/s/1AhV2v_JLtiYU3gekH0d4ow 提取码:p2h7

知识点

强化学习中on-policy 与off-policy有什么区别?

[原创] 强化学习里的 on-policy 和 off-policy 的区别

框架,库

[tensorlayer/TensorLayer](https://github.com/tensorlayer/TensorLayer/blob/cb4eb896dd063e650ef22533ed6fa6056a71cad5/examples/reinforcement_learning/README.md)

Tensorflow2.0实现29种深度强化学习算法大汇总

一定要看,非常好

欢迎Star:https://github.com/StepNeverStop/RLs

本文作者使用gym,Unity3D ml-agents等环境,利用tensorflow2.0版本对29种算法进行了实现的深度强化学习训练框架,该框架具有如下特性:

  • 实现单智能体强化学习、分层强化学习、多智能体强化学习算法等约29种
  • 适配gym、MuJoCo、PyBullet、Unity ML-Agents等多种训练环境

mengwanglalala/RL-algorithms

RL-algorithms,更新一些基础的RL代码,附带了各个算法的介绍

Awesome Reinforcement Learning Library

集合了各种强化学习库

tensorlayer

对话TensorLayer项目发起者董豪

TensorLayer进阶资源

新概念

重生强化

我记得我刚开始学强化的时候,好奇的一个问题,对于强化的网络,如果一个开始就全给的专家数据,和从零开始学习,从试错,到自己学成专家,哪个会更好一些? 看了Reset-RL和demo-RL之后,好像答案比较明确了,还是得有高质量的数据,然后少许交互就能快速获得一个高质量策略。而从头开始试错,不断摸索的策略,很可能会因为早期的垃圾数据,导致陷入局部最优(首因偏差),上不去~

发布于 2022-12-09・IP 属地安徽

这两个是什么算法,求指路

后者是DDPGfD,前者是primacy bias in rl ResetNet-The Primacy Bias in Deep Reinforcement Learning

重生强化【Reincarnating RL】论文梳理

论文

Danzero+:用掼蛋为例讲解如何处理大规模动作空间的强化学习问题

不重要

【RL系列】强化学习基础知识汇总