- 返回上层目录
- 强化学习
- 仿真环境
- MCTS蒙特卡洛树搜索
- 模仿学习
- 多智能体强化学习
- Transformer+RL
- 决策大模型
- Offline RL离线强化学习
- MMRL多模态强化学习
- LLM+RL
- DiffusionModel+RL
- 业界应用
===
必须推荐王树森、黎彧君、张志华的新书《深度强化学习》,已经正式出版。这是一本正式出版前就注定成为经典的入门书籍——其在线公开课视频播放量超过一百万次,助力数万“云学生”——更加高效、方便、系统地学习相关知识。课程主页这里:https://github.com/wangshusen/DRL 还有对应的在线公开课视频和代码,B站、Github都有。下文内容来自作者王树森写的前言。
1.看李宏毅的强化学习视频-b站随便找一个最新最全的;
2.看郭宪大佬的《深入浅出强化学习》-知乎有他的专栏文章;
3.代码刷openai的spinningup。
目前我认为最简洁最不走弯路的方法。至少节省大家半年的随机探索时间
其他的教材对于强化的公式推导不够透彻,
其他几门视频课难度高,不适合入门;
其他的代码库,新手根本看不懂。
最后贴上我基于spinup封装好的一个强化学习库:
https://github.com/kaixindelele/DRL-tensorflow
https://github.com/kaixindelele/DRLib
NeuronDance/DeepRL/A-Guide-Resource-For-DeepRL/
【莫烦Python】强化学习 Reinforcement Learning
短小精悍
看这个,讲的很好很清楚,比如其中强化学习策略梯度的部分。
David Silver 增强学习——Lecture 6 值函数逼近
有空看这个,那个陈达贵的视频ppt其实就是这个。
B站上deepmind的大佬David alived的强化学习的视频,点击率甚低。看来很多国人不知道阿发狗李的研发团队的首席科学家啊。
[CS294]
初学者非常不推荐看CS294,因为真的很难,可以看David Silver的课程
[CS234]是什么?
这个知乎专栏讲的对各种知识点的直觉理解和分析都特别好。
第一个是李宏毅老师21年最新的深度学习课程,将最新的内容都纳入了教学大纲
第二个是多智能体强化学习领域的:UCL的汪军老师新开的课程
Link:https://github.com/geek-ai/MAgent
这个是UCL汪军老师团队Mean Field 论文里用到的环境,主要研究的是当环境由大量智能体组成的时候的竞争和协作问题。也可以看成是复杂的Grid World环境。Render如下:
作者在无人机姿态控制上使用PPO训练取得了比PID更好的效果,并成功从虚拟环境迁移到了现实世界。
【重磅推荐: 强化学习课程】清华大学李升波老师《强化学习与控制》
**《强化学习与控制》**这一门课程包括11节。
第1讲介绍RL概况,包括发展历史、知名学者、典型应用以及主要挑战等。
第2讲介绍RL的基础知识,包括定义概念、自洽条件、最优性原理问题架构等。
第3讲介绍免模型学习的蒙特卡洛法,包括Monte Carlo估计,On-policy/off-policy,重要性采样等。
第4讲介绍免模型学习的时序差分法,包括它衍生的Sarsa,Q-learning,Expected Sarsa等算法。
第5讲介绍带模型学习的动态规划法,包括策略迭代、值迭代、收敛性原理等。
第6讲介绍间接型RL的函数近似方法,包括常用近似函数,值函数近似,策略函数近似以及所衍生的Actor-critic架构等。
第7讲介绍直接型RL的策略梯度法,包括各类Policy Gradient, 以及如何从优化的观点看待RL等。
第8讲介绍深度强化学习,即以神经网络为载体的RL,包括深度化典型挑战、经验性处理技巧等。
第9讲介绍带模型的强化学习,即近似动态规划,包括离散时间系统的ADP,ADP与MPC的关联分析等。
第10讲介绍有限时域的近似动态规划,同时介绍了状态约束的处理手段以及它与可行性之间的关系
第11讲介绍RL的各类拾遗,包括POMDP、鲁棒性、多智能体、元学习、逆强化学习以及训练平台等。
最近在写多智能体强化学习工作绪论,请问除了 MADDPG 以及 MAPPO 还有哪些算法?
Transformer + RL专题 | 究竟是强化学习魔高一尺,还是Transformer道高一丈 (第1期)
Transformer + RL专题|强化学习中时序建模的千层套路(第2期)
Transformer + RL 专题|大力出奇迹,看 Transformer 如何征服超参数搜索中的决策问题 (第3期)
中科院自动化所2020智能决策论坛报告ppt: 论坛报告回放:https://space.bilibili.com/551888585/channel/detail?cid=167587 【柯良军】链接:https://pan.baidu.com/s/18uM3GU8HpZ2OAUIoN0timQ 提取码:rb4o 【章宗长】链接:https://pan.baidu.com/s/1hg-YPfcjCaMnUIogZXMmTQ 提取码:dhdf 【余超】链接:https://pan.baidu.com/s/1ZnU7oe8xB6YJgyVC1frY6Q 提取码:h42p 【温颖】链接:https://pan.baidu.com/s/1AhV2v_JLtiYU3gekH0d4ow 提取码:p2h7
强化学习中on-policy 与off-policy有什么区别?
[原创] 强化学习里的 on-policy 和 off-policy 的区别
[tensorlayer/TensorLayer](https://github.com/tensorlayer/TensorLayer/blob/cb4eb896dd063e650ef22533ed6fa6056a71cad5/examples/reinforcement_learning/README.md)
一定要看,非常好
欢迎Star:https://github.com/StepNeverStop/RLs
本文作者使用gym,Unity3D ml-agents等环境,利用tensorflow2.0版本对29种算法进行了实现的深度强化学习训练框架,该框架具有如下特性:
- 实现单智能体强化学习、分层强化学习、多智能体强化学习算法等约29种
- 适配gym、MuJoCo、PyBullet、Unity ML-Agents等多种训练环境
RL-algorithms,更新一些基础的RL代码,附带了各个算法的介绍
Awesome Reinforcement Learning Library
集合了各种强化学习库
tensorlayer
我记得我刚开始学强化的时候,好奇的一个问题,对于强化的网络,如果一个开始就全给的专家数据,和从零开始学习,从试错,到自己学成专家,哪个会更好一些? 看了Reset-RL和demo-RL之后,好像答案比较明确了,还是得有高质量的数据,然后少许交互就能快速获得一个高质量策略。而从头开始试错,不断摸索的策略,很可能会因为早期的垃圾数据,导致陷入局部最优(首因偏差),上不去~
发布于 2022-12-09・IP 属地安徽
这两个是什么算法,求指路
后者是DDPGfD,前者是primacy bias in rl ResetNet-The Primacy Bias in Deep Reinforcement Learning