Skip to content

Commit

Permalink
fix: 4.迁移学习和强化学习在无人驾驶中的应用
Browse files Browse the repository at this point in the history
  • Loading branch information
chai-mi committed Dec 28, 2024
1 parent a0ff606 commit 476faad
Showing 1 changed file with 7 additions and 7 deletions.
Original file line number Diff line number Diff line change
Expand Up @@ -165,15 +165,15 @@

## 强化学习原理及过程

- 个体Agent,学习器角色,也称为智能体
- 环境Environment,Agent 之外一切组成的、与之交互的事物
- 动作Action,Agent 的行为
- 状态State,Agent 从环境获取的信息
- 奖励Reward,环境对于动作的反馈
- 个体 (Agent),学习器角色,也称为智能体
- 环境 (Environment),Agent 之外一切组成的、与之交互的事物
- 动作 (Action),Agent 的行为
- 状态 (State),Agent 从环境获取的信息
- 奖励 (Reward),环境对于动作的反馈

![强化学习原理及过程](./image/强化学习原理及过程.png)

智能体首先从环境中获取一个状态 $O_t$,然后根据 $O_t$ 调整自身的策略做出行为 $A_t$ 并反馈给环境,环境根据智能体的动作给予智能体一个奖励 R,智能体和环境之间通过不断地交互学习,得到一个 { $O_t,A_t,R$ } 的交互历史序列
智能体首先从环境中获取一个状态 $O_t$,然后根据 $O_t$ 调整自身的策略做出行为 $A_t$ 并反馈给环境,环境根据智能体的动作给予智能体一个奖励 R,智能体和环境之间通过不断地交互学习,得到一个 $\set{O_t,A_t,R}$ 的交互历史序列

### 马尔可夫决策过程

Expand Down Expand Up @@ -285,7 +285,7 @@ $$
用状态 - 行为值函数衡量当前行为的好坏,其数学表达式为

$$
q_{\pi}(s, a) = E_{\pi}[\sum_{k=0}^{\infty} \gamma^{k} R_{t+k+1} | S_t = s, A_t = a]
q_{\pi}(s, a) = E_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} R_{t+k+1} | S_t = s, A_t = a\right]
$$

在一般情况下,状态 - 值函数和状态 - 行为值函数之间的关系表示为
Expand Down

0 comments on commit 476faad

Please sign in to comment.