===
个人认为,cooperative multi-agent reinforcement learning在发现了基于策略梯度的sequential rollout机制以后就算是解决了,剩下就是对sequential rollout工程实现上的修补改进(比如引入order matters, transformer结构, distill方法等)。
===
个人认为,cooperative multi-agent reinforcement learning在发现了基于策略梯度的sequential rollout机制以后就算是解决了,剩下就是对sequential rollout工程实现上的修补改进(比如引入order matters, transformer结构, distill方法等)。