Skip to content

Commit

Permalink
fix:4.迁移学习与强化学习的公式修改
Browse files Browse the repository at this point in the history
  • Loading branch information
liworuo committed Dec 28, 2024
1 parent 476faad commit 01838d2
Showing 1 changed file with 7 additions and 7 deletions.
Original file line number Diff line number Diff line change
Expand Up @@ -189,7 +189,7 @@ $$

#### 马尔可夫过程

它是一个二元组 (S, P),其中 S 为有限状态机,P 为状态转移概率矩阵,该矩阵为
它是一个二元组 $(S, P)$ ,其中 $S$ 为有限状态机, $P$ 为状态转移概率矩阵,该矩阵为

$$
P =
Expand All @@ -201,11 +201,11 @@ P_{n1} & \dots & P_{nn}
$$

在强化学习中,问题被描述为一个马尔可夫决策过程 (Markov Decision Process, MDP)
- 由一个元组<S, A, P, R>表示
- S 为有限状态空间集合, $s_t \in S$ 表示 t 时刻状态
- A 为有限动作空间集合, $a_t \in A$ 表示 t 时刻动作
- P 为状态转移概率,P(s'|s, a) 表示在状态 s 下执行动作 a 后,转移至下一状态 s'的概率
- R 为奖赏函数,执行完动作转移至下一状态时,奖励记作 R = r(s'|s, a)
- 由一个元组 $<S, A, P, R>$ 表示
- $S$ 为有限状态空间集合, $s_t \in S$ 表示 t 时刻状态
- $A$ 为有限动作空间集合, $a_t \in A$ 表示 t 时刻动作
- $P$ 为状态转移概率, $P(s'|s, a)$ 表示在状态 s 下执行动作 a 后,转移至下一状态 s'的概率
- $R$ 为奖赏函数,执行完动作转移至下一状态时,奖励记作 $R = r(s'|s, a)$

![MDP 图解](./image/MDP图解.png)

Expand Down Expand Up @@ -272,7 +272,7 @@ $$
- 累计回报并不简单,主要反映在计算的时间跨度
- 有限时间,计算复杂但可计算
- 无限时间,计算累积回报没有意义
- 为了解决该问题,需要降低未来回报对当前时刻状态的影响,即对未来回报乘以一个 0-1 的系数
- 为了解决该问题,需要降低未来回报对当前时刻状态的影响,即对未来回报乘以一个 $[0,1]$ 的系数

将状态 $s$ 的期望值视为状态 - 值函数,数学表达为

Expand Down

0 comments on commit 01838d2

Please sign in to comment.