Skip to content

Commit

Permalink
fix: 4.迁移学习和强化学习在无人驾驶中的应用
Browse files Browse the repository at this point in the history
  • Loading branch information
chai-mi committed Dec 28, 2024
1 parent 9cd2435 commit 316e6b6
Showing 1 changed file with 6 additions and 6 deletions.
Original file line number Diff line number Diff line change
Expand Up @@ -65,10 +65,10 @@

通过减小源域 (辅助领域) 到目标域的分布差异,进行知识迁移,从而实现数据标定

- 源域——>目标域 (减少差异,知识迁移)
- 源域 $\rightarrow$ 目标域 (减少差异,知识迁移)

> [!NOTE]
> 从别人数据学习自己的特征,要减少差异
> 从别人数据学习自己的特征,要减少差异
>
> - 背景,原数据量中目标域的数据很少,但源域 (辅助领域) 的数据量多
> - 源域 (辅助领域) ,即为给出的数据中不是目标类别的数据,但是为其相似的类别的数据
Expand Down Expand Up @@ -189,7 +189,7 @@ $$

#### 马尔可夫过程

它是一个二元组 (S, P),其中 S 为有限状态机,P 为状态转移概率矩阵,该矩阵为
它是一个二元组 (S, P),其中 S 为有限状态机,P 为状态转移概率矩阵,该矩阵为

$$
P =
Expand Down Expand Up @@ -496,8 +496,8 @@ $$
- 基本思想
- 将智能体的交互经验存储在一个经验池中,并在智能体进行更新时从经验池中随机采样一小批经验来进行训练。
- 作用
- 智能体可以**更好地利用过去的经验,提高学习效率,降低了采样成本**
- 通过随机采样,经验回放可以**减少训练数据之间的相关性,提高算法收敛速度**
- 智能体可以**更好地利用过去的经验,提高学习效率,降低了采样成本**
- 通过随机采样,经验回放可以**减少训练数据之间的相关性,提高算法收敛速度**

- 目标网络
- 使用的第二个网络,用来计算 $TDtarget: y_t = r_t + \gamma \max_\pi Q(S_{t+1}, a_t)$
Expand Down Expand Up @@ -589,7 +589,7 @@ DDPG 算法是对 DQN 的一种改进,是一种无模型的深度强化学习

DDPG 共包含 4 个神经网络,用于对 Q 值函数和策略的近似表示
- Critic (评论家),用于对当前策略评价
- 目标网络用于近似估计下一时刻的状态 - 动作的 Q 值函数
- 目标网络用于近似估计下一时刻的状态 - 动作的 Q 值函数
- 训练网络输出当前时刻状态 - 动作的 Q 值函数
- Actor (演员),结合 Critic 训练网络的 Q 值函数可以得到 Actor 在参数更新时的策略梯度
- 目标网络用于提供下一个状态的策略
Expand Down

0 comments on commit 316e6b6

Please sign in to comment.