fix：4.迁移学习和强化学习在无人驾驶中的应用，贝尔曼方程修改 (#49)

chai-mi · Dec 28, 2024 · 84ec180 · 84ec180
1 parent fcd0c0d
commit 84ec180
Showing 1 changed file with 8 additions and 6 deletions.
diff --git a/智能无人系统/4.迁移学习和强化学习在无人驾驶中的应用.md b/智能无人系统/4.迁移学习和强化学习在无人驾驶中的应用.md
@@ -358,11 +358,15 @@ $$
 
 ### 请解释贝尔曼方程，并说明其在强化学习中的作用
 
-贝尔曼方程用于描述马尔可夫决策过程 (MDP) 中状态值或动作状态值的关系
+贝尔曼方程用于寻找马尔科夫决策过程的最优策略
+
+贝尔曼方程给出了关于值函数的方程，通过解这个方程我们就能得到对应状态的值函数的值，从而进行策略评估或者策略选择
+
+它描述了
 - 状态值函数表示在状态 s 下，遵循某一策略 $\pi$ 的期望回报
 
 $$
-V_{\pi}(s) = E_{\pi}[R_{t+1} + \gamma V_{\pi}(S_{t+1}) | S_t = s]
+V_{\pi}(s) = E_{\pi}[R_{t+1} + \gamma V_{\pi}(S_{t+1})]
 $$
 
 - 动作值函数，表示在状态 s 下采取动作 a 的期望回报
@@ -372,12 +376,10 @@ q_{\pi}(s_t, a_t) = E[R_{t+1} + \gamma q_{\pi}(s_{t+1}, a_{t+1})]
 $$
 
 - 在强化学习中的作用
-  - 最优策略的求解
-    - 贝尔曼方程提供了一种递归结构，价值迭代与策略迭代使得可以通过迭代的方法寻求最优策略
+  - 贝尔曼期望方程
+    - 为策略迭代算法提供理论支撑
   - 模型自由学习
     - 在强化学习的在线学习场景中，可以使用贝尔曼方程的无模型版本，如 Q-learning 中，来在没有明确模型的情况下学习最优策略
-  - 理论基础
-    - 贝尔曼方程为强化学习提供了理论框架，帮助理解价值函数和策略之间的关系，为算法设计提供指导
 
 ## Q-learning