diff --git a/src/posts/lzj-sharing.md b/src/posts/lzj-sharing.md index 0759361..35f1939 100644 --- a/src/posts/lzj-sharing.md +++ b/src/posts/lzj-sharing.md @@ -62,7 +62,7 @@ R1-V 是多模态推理模型的早期代表之一。 - **奖励函数难以设置**(当前代码中使用的是最简单的实现方案)。 - **显存 OOM**:详见 [Issue #107](https://github.com/Deep-Agent/R1-V/issues/107)。 - **损失值经常为 0**:详见 [Huggingface Open-R1 Issue #239](https://github.com/huggingface/open-r1/issues/239)。 -现在 GRPO 实现中策略都是单步更新,导致新旧策略是一样的,所以重要性采样系数是 1 ,然后优势函数 A 是一个组当中每个 reward 的标准化,那么对优势函数A求期望自然也就是 0 了。所以 GRPO 的 loss 实际上就是新旧策略的KL散度项再乘一个系数 beta ,这也就是为什么训练过程中 loss 曲线和 KL 散度曲线分布如此相似,因为只差了一个系数 beta 。 +现在 GRPO 实现中策略都是单步更新,导致新旧策略是一样的,所以重要性采样系数是 1 ,然后优势函数 A 是一个组当中每个 reward 的标准化,那么对优势函数 A 求期望自然也就是 0 了。所以 GRPO 的 loss 实际上就是新旧策略的 KL 散度项再乘一个系数 beta ,这也就是为什么训练过程中 loss 曲线和 KL 散度曲线分布如此相似,因为只差了一个系数 beta 。 ---