Skip to content

Commit

Permalink
fix:4.迁移学习和强化学习在无人驾驶中的应用,贝尔曼方程修改 (#49)
Browse files Browse the repository at this point in the history
  • Loading branch information
liworuo authored Dec 28, 2024
1 parent fcd0c0d commit 84ec180
Showing 1 changed file with 8 additions and 6 deletions.
Original file line number Diff line number Diff line change
Expand Up @@ -358,11 +358,15 @@ $$

### 请解释贝尔曼方程,并说明其在强化学习中的作用

贝尔曼方程用于描述马尔可夫决策过程 (MDP) 中状态值或动作状态值的关系
贝尔曼方程用于寻找马尔科夫决策过程的最优策略

贝尔曼方程给出了关于值函数的方程,通过解这个方程我们就能得到对应状态的值函数的值,从而进行策略评估或者策略选择

它描述了
- 状态值函数表示在状态 s 下,遵循某一策略 $\pi$ 的期望回报

$$
V_{\pi}(s) = E_{\pi}[R_{t+1} + \gamma V_{\pi}(S_{t+1}) | S_t = s]
V_{\pi}(s) = E_{\pi}[R_{t+1} + \gamma V_{\pi}(S_{t+1})]
$$

- 动作值函数,表示在状态 s 下采取动作 a 的期望回报
Expand All @@ -372,12 +376,10 @@ q_{\pi}(s_t, a_t) = E[R_{t+1} + \gamma q_{\pi}(s_{t+1}, a_{t+1})]
$$

- 在强化学习中的作用
- 最优策略的求解
- 贝尔曼方程提供了一种递归结构,价值迭代与策略迭代使得可以通过迭代的方法寻求最优策略
- 贝尔曼期望方程
- 为策略迭代算法提供理论支撑
- 模型自由学习
- 在强化学习的在线学习场景中,可以使用贝尔曼方程的无模型版本,如 Q-learning 中,来在没有明确模型的情况下学习最优策略
- 理论基础
- 贝尔曼方程为强化学习提供了理论框架,帮助理解价值函数和策略之间的关系,为算法设计提供指导

## Q-learning

Expand Down

0 comments on commit 84ec180

Please sign in to comment.