强化学习

返回上层目录
强化学习
仿真环境
MCTS蒙特卡洛树搜索
模仿学习
多智能体强化学习
Transformer+RL
决策大模型
Offline RL离线强化学习
MMRL多模态强化学习
LLM+RL
DiffusionModel+RL
业界应用

===

深度强化学习入门

必须推荐王树森、黎彧君、张志华的新书《深度强化学习》，已经正式出版。这是一本正式出版前就注定成为经典的入门书籍——其在线公开课视频播放量超过一百万次，助力数万“云学生”——更加高效、方便、系统地学习相关知识。课程主页这里：https://github.com/wangshusen/DRL 还有对应的在线公开课视频和代码，B站、Github都有。下文内容来自作者王树森写的前言。

强化学习怎么入门好？

1.看李宏毅的强化学习视频-b站随便找一个最新最全的；

2.看郭宪大佬的《深入浅出强化学习》-知乎有他的专栏文章；

3.代码刷openai的spinningup。

目前我认为最简洁最不走弯路的方法。至少节省大家半年的随机探索时间

其他的教材对于强化的公式推导不够透彻，

其他几门视频课难度高，不适合入门；

其他的代码库，新手根本看不懂。

最后贴上我基于spinup封装好的一个强化学习库：

https://github.com/kaixindelele/DRL-tensorflow

https://github.com/kaixindelele/DRLib

地图：

全网首发|| 最全深度强化学习资料(永久更新)

NeuronDance/DeepRL

NeuronDance/DeepRL/A-Guide-Resource-For-DeepRL/

视频课程

【莫烦Python】强化学习 Reinforcement Learning

短小精悍

李宏毅】2020 最新课程 (完整版) 强化学习

看这个，讲的很好很清楚，比如其中强化学习策略梯度的部分。

李宏毅深度强化学习(国语)课程(2018) ppo

David Silver 增强学习——Lecture 6 值函数逼近

有空看这个，那个陈达贵的视频ppt其实就是这个。

B站上deepmind的大佬David alived的强化学习的视频，点击率甚低。看来很多国人不知道阿发狗李的研发团队的首席科学家啊。

[CS294]

初学者非常不推荐看CS294，因为真的很难，可以看David Silver的课程

[CS234]是什么？

白话强化学习

这个知乎专栏讲的对各种知识点的直觉理解和分析都特别好。

强化学习路线推荐及资料整理

第一个是李宏毅老师21年最新的深度学习课程，将最新的内容都纳入了教学大纲

第二个是多智能体强化学习领域的：UCL的汪军老师新开的课程

仿真环境

有哪些常用的多智能体强化学习仿真环境？

Link：https://github.com/geek-ai/MAgent

这个是UCL汪军老师团队Mean Field 论文里用到的环境，主要研究的是当环境由大量智能体组成的时候的竞争和协作问题。也可以看成是复杂的Grid World环境。Render如下：

强化学习与控制

强化学习无人机交互环境汇总

作者在无人机姿态控制上使用PPO训练取得了比PID更好的效果，并成功从虚拟环境迁移到了现实世界。

【重磅推荐: 强化学习课程】清华大学李升波老师《强化学习与控制》

**《强化学习与控制》**这一门课程包括11节。

第1讲介绍RL概况，包括发展历史、知名学者、典型应用以及主要挑战等。

第2讲介绍RL的基础知识，包括定义概念、自洽条件、最优性原理问题架构等。

第3讲介绍免模型学习的蒙特卡洛法，包括Monte Carlo估计，On-policy/off-policy，重要性采样等。

第4讲介绍免模型学习的时序差分法，包括它衍生的Sarsa，Q-learning，Expected Sarsa等算法。

第5讲介绍带模型学习的动态规划法，包括策略迭代、值迭代、收敛性原理等。

第6讲介绍间接型RL的函数近似方法，包括常用近似函数，值函数近似，策略函数近似以及所衍生的Actor-critic架构等。

第7讲介绍直接型RL的策略梯度法，包括各类Policy Gradient, 以及如何从优化的观点看待RL等。

第8讲介绍深度强化学习，即以神经网络为载体的RL，包括深度化典型挑战、经验性处理技巧等。

第9讲介绍带模型的强化学习，即近似动态规划，包括离散时间系统的ADP，ADP与MPC的关联分析等。

第10讲介绍有限时域的近似动态规划，同时介绍了状态约束的处理手段以及它与可行性之间的关系

第11讲介绍RL的各类拾遗，包括POMDP、鲁棒性、多智能体、元学习、逆强化学习以及训练平台等。

强化学习和最优控制的《十个关键点》81页PPT汇总

多智能体强化学习

【DeepMind】多智能体学习231页PPT总结

最近在写多智能体强化学习工作绪论，请问除了 MADDPG 以及 MAPPO 还有哪些算法？

专题

Transformer+RL

Transformer + RL专题 | 究竟是强化学习魔高一尺，还是Transformer道高一丈（第1期）

Transformer + RL专题｜强化学习中时序建模的千层套路（第2期）

Transformer + RL 专题｜大力出奇迹，看 Transformer 如何征服超参数搜索中的决策问题（第3期）

论坛

中科院自动化所2020智能决策论坛报告ppt：论坛报告回放：https://space.bilibili.com/551888585/channel/detail?cid=167587 【柯良军】链接：https://pan.baidu.com/s/18uM3GU8HpZ2OAUIoN0timQ 提取码：rb4o 【章宗长】链接：https://pan.baidu.com/s/1hg-YPfcjCaMnUIogZXMmTQ 提取码：dhdf 【余超】链接：https://pan.baidu.com/s/1ZnU7oe8xB6YJgyVC1frY6Q 提取码：h42p 【温颖】链接：https://pan.baidu.com/s/1AhV2v_JLtiYU3gekH0d4ow 提取码：p2h7

知识点

强化学习中on-policy 与off-policy有什么区别？

[原创] 强化学习里的 on-policy 和 off-policy 的区别

框架，库

[tensorlayer/TensorLayer](https://github.com/tensorlayer/TensorLayer/blob/cb4eb896dd063e650ef22533ed6fa6056a71cad5/examples/reinforcement_learning/README.md)

Tensorflow2.0实现29种深度强化学习算法大汇总

一定要看，非常好

欢迎Star：https://github.com/StepNeverStop/RLs

本文作者使用gym,Unity3D ml-agents等环境，利用tensorflow2.0版本对29种算法进行了实现的深度强化学习训练框架，该框架具有如下特性：

实现单智能体强化学习、分层强化学习、多智能体强化学习算法等约29种
适配gym、MuJoCo、PyBullet、Unity ML-Agents等多种训练环境

mengwanglalala/RL-algorithms

RL-algorithms，更新一些基础的RL代码，附带了各个算法的介绍

Awesome Reinforcement Learning Library

集合了各种强化学习库

tensorlayer

对话TensorLayer项目发起者董豪

TensorLayer进阶资源

新概念

重生强化

我记得我刚开始学强化的时候，好奇的一个问题，对于强化的网络，如果一个开始就全给的专家数据，和从零开始学习，从试错，到自己学成专家，哪个会更好一些？看了Reset-RL和demo-RL之后，好像答案比较明确了，还是得有高质量的数据，然后少许交互就能快速获得一个高质量策略。而从头开始试错，不断摸索的策略，很可能会因为早期的垃圾数据，导致陷入局部最优（首因偏差)，上不去~

发布于 2022-12-09・IP 属地安徽

这两个是什么算法，求指路

后者是DDPGfD，前者是primacy bias in rl ResetNet-The Primacy Bias in Deep Reinforcement Learning

重生强化【Reincarnating RL】论文梳理

论文

Danzero+：用掼蛋为例讲解如何处理大规模动作空间的强化学习问题

不重要

【RL系列】强化学习基础知识汇总

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

reinforcement-learning.md

reinforcement-learning.md

强化学习

深度强化学习入门

地图：

视频课程

仿真环境

强化学习与控制

多智能体强化学习

专题

Transformer+RL

论坛

知识点

框架，库

新概念

重生强化

论文

不重要

Files

reinforcement-learning.md

Latest commit

History

reinforcement-learning.md

File metadata and controls

强化学习

深度强化学习入门

地图：

视频课程

仿真环境

强化学习与控制

多智能体强化学习

专题

Transformer+RL

论坛

知识点

框架，库

新概念

重生强化

论文

不重要