diff --git a/src/posts/lzj-sharing.md b/src/posts/lzj-sharing.md
index 0759361..35f1939 100644
--- a/src/posts/lzj-sharing.md
+++ b/src/posts/lzj-sharing.md
@@ -62,7 +62,7 @@ R1-V 是多模态推理模型的早期代表之一。
 - **奖励函数难以设置**（当前代码中使用的是最简单的实现方案）。  
 - **显存 OOM**：详见 [Issue #107](https://github.com/Deep-Agent/R1-V/issues/107)。  
 - **损失值经常为 0**：详见 [Huggingface Open-R1 Issue #239](https://github.com/huggingface/open-r1/issues/239)。  
-现在 GRPO 实现中策略都是单步更新，导致新旧策略是一样的，所以重要性采样系数是 1 ，然后优势函数 A 是一个组当中每个 reward 的标准化，那么对优势函数A求期望自然也就是 0 了。所以 GRPO 的 loss 实际上就是新旧策略的KL散度项再乘一个系数 beta ，这也就是为什么训练过程中 loss 曲线和 KL 散度曲线分布如此相似，因为只差了一个系数 beta 。
+现在 GRPO 实现中策略都是单步更新，导致新旧策略是一样的，所以重要性采样系数是 1 ，然后优势函数 A 是一个组当中每个 reward 的标准化，那么对优势函数 A 求期望自然也就是 0 了。所以 GRPO 的 loss 实际上就是新旧策略的 KL 散度项再乘一个系数 beta ，这也就是为什么训练过程中 loss 曲线和 KL 散度曲线分布如此相似，因为只差了一个系数 beta 。
 
 ---