diff --git "a/\346\231\272\350\203\275\346\227\240\344\272\272\347\263\273\347\273\237/4.\350\277\201\347\247\273\345\255\246\344\271\240\345\222\214\345\274\272\345\214\226\345\255\246\344\271\240\345\234\250\346\227\240\344\272\272\351\251\276\351\251\266\344\270\255\347\232\204\345\272\224\347\224\250.md" "b/\346\231\272\350\203\275\346\227\240\344\272\272\347\263\273\347\273\237/4.\350\277\201\347\247\273\345\255\246\344\271\240\345\222\214\345\274\272\345\214\226\345\255\246\344\271\240\345\234\250\346\227\240\344\272\272\351\251\276\351\251\266\344\270\255\347\232\204\345\272\224\347\224\250.md"
index 3a0b0f1..ead02da 100644
--- "a/\346\231\272\350\203\275\346\227\240\344\272\272\347\263\273\347\273\237/4.\350\277\201\347\247\273\345\255\246\344\271\240\345\222\214\345\274\272\345\214\226\345\255\246\344\271\240\345\234\250\346\227\240\344\272\272\351\251\276\351\251\266\344\270\255\347\232\204\345\272\224\347\224\250.md"
+++ "b/\346\231\272\350\203\275\346\227\240\344\272\272\347\263\273\347\273\237/4.\350\277\201\347\247\273\345\255\246\344\271\240\345\222\214\345\274\272\345\214\226\345\255\246\344\271\240\345\234\250\346\227\240\344\272\272\351\251\276\351\251\266\344\270\255\347\232\204\345\272\224\347\224\250.md"
@@ -65,10 +65,10 @@
 
 通过减小源域 (辅助领域) 到目标域的分布差异，进行知识迁移，从而实现数据标定
 
-- 源域——>目标域 (减少差异，知识迁移)
+- 源域 $\rightarrow$ 目标域 (减少差异，知识迁移)
 
 > [!NOTE]
-> 从别人数据学习自己的特征，要减少差异。
+> 从别人数据学习自己的特征，要减少差异
 >
 > - 背景，原数据量中目标域的数据很少，但源域 (辅助领域) 的数据量多
 > - 源域 (辅助领域) ，即为给出的数据中不是目标类别的数据，但是为其相似的类别的数据
@@ -189,7 +189,7 @@ $$
 
 #### 马尔可夫过程
 
-它是一个二元组 (S, P)，其中 S 为有限状态机，P 为状态转移概率矩阵，该矩阵为：
+它是一个二元组 (S, P)，其中 S 为有限状态机，P 为状态转移概率矩阵，该矩阵为
 
 $$
 P =
@@ -496,8 +496,8 @@ $$
   - 基本思想
     - 将智能体的交互经验存储在一个经验池中，并在智能体进行更新时从经验池中随机采样一小批经验来进行训练。
   - 作用
-    - 智能体可以**更好地利用过去的经验，提高学习效率，降低了采样成本**。
-    - 通过随机采样，经验回放可以**减少训练数据之间的相关性，提高算法收敛速度**。
+    - 智能体可以**更好地利用过去的经验，提高学习效率，降低了采样成本**
+    - 通过随机采样，经验回放可以**减少训练数据之间的相关性，提高算法收敛速度**
 
 - 目标网络
   - 使用的第二个网络，用来计算 $TDtarget: y_t = r_t + \gamma \max_\pi Q(S_{t+1}, a_t)$
@@ -589,7 +589,7 @@ DDPG 算法是对 DQN 的一种改进，是一种无模型的深度强化学习
 
 DDPG 共包含 4 个神经网络，用于对 Q 值函数和策略的近似表示
 - Critic (评论家)，用于对当前策略评价
-  - 目标网络用于近似估计下一时刻的状态 - 动作的 Q 值函数，
+  - 目标网络用于近似估计下一时刻的状态 - 动作的 Q 值函数
   - 训练网络输出当前时刻状态 - 动作的 Q 值函数
 - Actor (演员)，结合 Critic 训练网络的 Q 值函数可以得到 Actor 在参数更新时的策略梯度
   - 目标网络用于提供下一个状态的策略