paper: Robotic Table Wiping via Reinforcement Learning and Whole-body Trajectory Optimization
另一个方向是提高学习算法的数据效率,这样就不再仅仅依赖于扩展数据收集:通过合并先验信息,包括预测信息、对抗性动作先验和指导策略,提高了 RL 方法的效率。
利用一种新的结构化动力系统体系结构,将 RL 与轨迹优化相结合,在新型求解器的支持下,得到了进一步的改进,先验信息有助于缓解勘探的挑战,更好地规范数据,并大大减少了所需的数据量。