diff --git "a/\346\231\272\350\203\275\346\227\240\344\272\272\347\263\273\347\273\237/4.\350\277\201\347\247\273\345\255\246\344\271\240\345\222\214\345\274\272\345\214\226\345\255\246\344\271\240\345\234\250\346\227\240\344\272\272\351\251\276\351\251\266\344\270\255\347\232\204\345\272\224\347\224\250.md" "b/\346\231\272\350\203\275\346\227\240\344\272\272\347\263\273\347\273\237/4.\350\277\201\347\247\273\345\255\246\344\271\240\345\222\214\345\274\272\345\214\226\345\255\246\344\271\240\345\234\250\346\227\240\344\272\272\351\251\276\351\251\266\344\270\255\347\232\204\345\272\224\347\224\250.md" index 3a0b0f1..ead02da 100644 --- "a/\346\231\272\350\203\275\346\227\240\344\272\272\347\263\273\347\273\237/4.\350\277\201\347\247\273\345\255\246\344\271\240\345\222\214\345\274\272\345\214\226\345\255\246\344\271\240\345\234\250\346\227\240\344\272\272\351\251\276\351\251\266\344\270\255\347\232\204\345\272\224\347\224\250.md" +++ "b/\346\231\272\350\203\275\346\227\240\344\272\272\347\263\273\347\273\237/4.\350\277\201\347\247\273\345\255\246\344\271\240\345\222\214\345\274\272\345\214\226\345\255\246\344\271\240\345\234\250\346\227\240\344\272\272\351\251\276\351\251\266\344\270\255\347\232\204\345\272\224\347\224\250.md" @@ -65,10 +65,10 @@ 通过减小源域 (辅助领域) 到目标域的分布差异,进行知识迁移,从而实现数据标定 -- 源域——>目标域 (减少差异,知识迁移) +- 源域 $\rightarrow$ 目标域 (减少差异,知识迁移) > [!NOTE] -> 从别人数据学习自己的特征,要减少差异。 +> 从别人数据学习自己的特征,要减少差异 > > - 背景,原数据量中目标域的数据很少,但源域 (辅助领域) 的数据量多 > - 源域 (辅助领域) ,即为给出的数据中不是目标类别的数据,但是为其相似的类别的数据 @@ -189,7 +189,7 @@ $$ #### 马尔可夫过程 -它是一个二元组 (S, P),其中 S 为有限状态机,P 为状态转移概率矩阵,该矩阵为: +它是一个二元组 (S, P),其中 S 为有限状态机,P 为状态转移概率矩阵,该矩阵为 $$ P = @@ -496,8 +496,8 @@ $$ - 基本思想 - 将智能体的交互经验存储在一个经验池中,并在智能体进行更新时从经验池中随机采样一小批经验来进行训练。 - 作用 - - 智能体可以**更好地利用过去的经验,提高学习效率,降低了采样成本**。 - - 通过随机采样,经验回放可以**减少训练数据之间的相关性,提高算法收敛速度**。 + - 智能体可以**更好地利用过去的经验,提高学习效率,降低了采样成本** + - 通过随机采样,经验回放可以**减少训练数据之间的相关性,提高算法收敛速度** - 目标网络 - 使用的第二个网络,用来计算 $TDtarget: y_t = r_t + \gamma \max_\pi Q(S_{t+1}, a_t)$ @@ -589,7 +589,7 @@ DDPG 算法是对 DQN 的一种改进,是一种无模型的深度强化学习 DDPG 共包含 4 个神经网络,用于对 Q 值函数和策略的近似表示 - Critic (评论家),用于对当前策略评价 - - 目标网络用于近似估计下一时刻的状态 - 动作的 Q 值函数, + - 目标网络用于近似估计下一时刻的状态 - 动作的 Q 值函数 - 训练网络输出当前时刻状态 - 动作的 Q 值函数 - Actor (演员),结合 Critic 训练网络的 Q 值函数可以得到 Actor 在参数更新时的策略梯度 - 目标网络用于提供下一个状态的策略