Skip to content

Commit

Permalink
remove final space
Browse files Browse the repository at this point in the history
  • Loading branch information
ZhijunLStudio committed Mar 11, 2025
1 parent b7e18d2 commit c765516
Showing 1 changed file with 1 addition and 1 deletion.
2 changes: 1 addition & 1 deletion src/posts/lzj-sharing.md
Original file line number Diff line number Diff line change
Expand Up @@ -62,7 +62,7 @@ R1-V 是多模态推理模型的早期代表之一。
- **奖励函数难以设置**(当前代码中使用的是最简单的实现方案)。
- **显存 OOM**:详见 [Issue #107](https://github.com/Deep-Agent/R1-V/issues/107)。
- **损失值经常为 0**:详见 [Huggingface Open-R1 Issue #239](https://github.com/huggingface/open-r1/issues/239)。
现在 GRPO 实现中策略都是单步更新,导致新旧策略是一样的,所以重要性采样系数是 1 ,然后优势函数 A 是一个组当中每个 reward 的标准化,那么对优势函数A求期望自然也就是 0 了。所以 GRPO 的 loss 实际上就是新旧策略的KL散度项再乘一个系数 beta ,这也就是为什么训练过程中 loss 曲线和 KL 散度曲线分布如此相似,因为只差了一个系数 beta 。
现在 GRPO 实现中策略都是单步更新,导致新旧策略是一样的,所以重要性采样系数是 1 ,然后优势函数 A 是一个组当中每个 reward 的标准化,那么对优势函数 A 求期望自然也就是 0 了。所以 GRPO 的 loss 实际上就是新旧策略的 KL 散度项再乘一个系数 beta ,这也就是为什么训练过程中 loss 曲线和 KL 散度曲线分布如此相似,因为只差了一个系数 beta 。
---
Expand Down

0 comments on commit c765516

Please sign in to comment.