We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
DeepSeek的推理模型DeepSeek-R1-Zero和DeepSeek-R1是通过大规模强化学习(RL)训练的模型,在无需有监督微调(SFT)的情况,在推理方面表现出色。其中 DeepSeek-R1 在数学、代码和推理任务上实现了与 OpenAI-o1 相当的性能。更重要的是,DeepSeek开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 从 DeepSeek-R1 中蒸馏得到的六个模型的权重。该项目希望基于 DeepSeek-R1 Technical Report 深度讨论其中涉及到的技术细节并尝试从模型,数据和算法等关键维度复现DeepSeek-R1的效果,便于对于Reasoning Model及其背后原理感兴趣的学习者学习参考。
DeepSeek-R1 在数学、代码和推理任务上的性能比肩 OpenAI-o1,且开源了其模型权重和大致的实现技术路径,某种意义上实现了对o1技术壁垒的突破,让推理模型的性能边界和技术原理不再神秘。本项目希望深入 DeepSeek-R1 的细节,阐释模型设计背后的技术原理并尝试从模型,数据和算法等关键维度复现DeepSeek-R1的效果,便于对于Reasoning Model及其背后原理感兴趣的学习者学习参考,也同时补充了Datawhale目前在推理大语言模型(Reasoning Models)上的空白。
Reasoning Models
同时兼容算法原理的图文推导和代码层级的理解 从模型,数据和算法等关键维度的全面复现DeepSeek-R1的效果 补充了Datawhale目前在推理大语言模型(Large Reasoning Models)上的空白
Large Reasoning Models
Reference: DeepSeek官方仓库 https://github.com/deepseek-ai/DeepSeek-R1 其中的Technical Report是最重要的复现参考 HuggingFace社区的复现项目 https://github.com/huggingface/open-r1 开源社区中起步最早的对于r1的复现项目,对于我们的项目也有一定的参考的帮助作用 llm-reasoners https://github.com/maitrix-org/llm-reasoners 关于使用大语言模型进行规划/推理及相关推理算法实现的Python Library Awesome-LLM-Strawberry https://github.com/hijkzzz/Awesome-LLM-Strawberry OpenAI o1 发布后尝试复现和汇总相关资料的集成仓库
1 导言 1.1 大语言模型简介 1.2 推理模型简介 1.2.1 LLM and Reasoning 1.2.2 推理效果可视化 1.2.3 OpenAI o1与Inference Scaling Law 1.2.4 Qwen QwQ and Qwen QVQ 1.2.5 DeepSeek-R1 and DeepSeek-R1-Zero 1.3 MoE简介 1.4 模型蒸馏简介
2 推理模型关键算法原理 2.1 CoT,ToT,GoT 2.2 蒙特卡洛树搜索 MCTS 2.3 强化学习 Reinforcement Learning 2.3.1 DPO 2.3.2 PPO 2.3.3 DRPO 2.3.4 GRPO
3 DeepSeek R1技术报告解读
4 DeepSeek R1 Series复现 4.1 Base Model (DeepSeek V3) 4.2 Data 4.3 Reproduction 4.3.1 通过从 DeepSeek-R1 中蒸馏高质量语料库来复现 R1-Distill 模型 4.3.2 复现 DeepSeek 创建 R1-Zero 所使用的纯强化学习(RL)Pipeline 4.3.3 base 模型到 RL-tuned 的多阶段模型训练。
5 DeepSeek推理模型评估 5.1 评估的意义 5.2 数据集 5.3 评估的分数计算算法
6 推理模型应用开发与实践
7 推理模型前沿研究跟进(持续更新)
姜舒凡 @Tsumugii24
Timeline: as soon as possible 技术更新迭代太快了~
No response
The text was updated successfully, but these errors were encountered:
@Tsumugii24 速度太快了,有没有兴趣跟其他同学我们一起来梳理关于deepseek的项目
Sorry, something went wrong.
骆师傅带带
No branches or pull requests
你是否已经阅读并同意《Datawhale开源项目指南》?
你是否已经阅读并同意《Datawhale开源项目行为准则》?
项目简介
DeepSeek的推理模型DeepSeek-R1-Zero和DeepSeek-R1是通过大规模强化学习(RL)训练的模型,在无需有监督微调(SFT)的情况,在推理方面表现出色。其中 DeepSeek-R1 在数学、代码和推理任务上实现了与 OpenAI-o1 相当的性能。更重要的是,DeepSeek开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 从 DeepSeek-R1 中蒸馏得到的六个模型的权重。该项目希望基于 DeepSeek-R1 Technical Report 深度讨论其中涉及到的技术细节并尝试从模型,数据和算法等关键维度复现DeepSeek-R1的效果,便于对于Reasoning Model及其背后原理感兴趣的学习者学习参考。
立项理由
DeepSeek-R1 在数学、代码和推理任务上的性能比肩 OpenAI-o1,且开源了其模型权重和大致的实现技术路径,某种意义上实现了对o1技术壁垒的突破,让推理模型的性能边界和技术原理不再神秘。本项目希望深入 DeepSeek-R1 的细节,阐释模型设计背后的技术原理并尝试从模型,数据和算法等关键维度复现DeepSeek-R1的效果,便于对于Reasoning Model及其背后原理感兴趣的学习者学习参考,也同时补充了Datawhale目前在推理大语言模型(
Reasoning Models
)上的空白。项目受众
项目亮点
同时兼容算法原理的图文推导和代码层级的理解
从模型,数据和算法等关键维度的全面复现DeepSeek-R1的效果
补充了Datawhale目前在推理大语言模型(
Large Reasoning Models
)上的空白Reference:
DeepSeek官方仓库 https://github.com/deepseek-ai/DeepSeek-R1
其中的Technical Report是最重要的复现参考
HuggingFace社区的复现项目 https://github.com/huggingface/open-r1
开源社区中起步最早的对于r1的复现项目,对于我们的项目也有一定的参考的帮助作用
llm-reasoners https://github.com/maitrix-org/llm-reasoners
关于使用大语言模型进行规划/推理及相关推理算法实现的Python Library
Awesome-LLM-Strawberry https://github.com/hijkzzz/Awesome-LLM-Strawberry
OpenAI o1 发布后尝试复现和汇总相关资料的集成仓库
项目规划
目录
1 导言
1.1 大语言模型简介
1.2 推理模型简介
1.2.1 LLM and Reasoning
1.2.2 推理效果可视化
1.2.3 OpenAI o1与Inference Scaling Law
1.2.4 Qwen QwQ and Qwen QVQ
1.2.5 DeepSeek-R1 and DeepSeek-R1-Zero
1.3 MoE简介
1.4 模型蒸馏简介
2 推理模型关键算法原理
2.1 CoT,ToT,GoT
2.2 蒙特卡洛树搜索 MCTS
2.3 强化学习 Reinforcement Learning
2.3.1 DPO
2.3.2 PPO
2.3.3 DRPO
2.3.4 GRPO
3 DeepSeek R1技术报告解读
4 DeepSeek R1 Series复现
4.1 Base Model (DeepSeek V3)
4.2 Data
4.3 Reproduction
4.3.1 通过从 DeepSeek-R1 中蒸馏高质量语料库来复现 R1-Distill 模型
4.3.2 复现 DeepSeek 创建 R1-Zero 所使用的纯强化学习(RL)Pipeline
4.3.3 base 模型到 RL-tuned 的多阶段模型训练。
5 DeepSeek推理模型评估
5.1 评估的意义
5.2 数据集
5.3 评估的分数计算算法
6 推理模型应用开发与实践
7 推理模型前沿研究跟进(持续更新)
项目负责人
姜舒凡 @Tsumugii24
预估完成日期
Timeline:
as soon as possible
技术更新迭代太快了~
已完成内容
No response
❗❗❗注意事项❗❗❗:为了便于我们跟你取得联系,请务必加我们的微信:at-Sm1les(备注你来自于项目立项即可),发起立项申请后DOPMC成员将会在7天内给出审核意见并评论在该Issue,若7天内无反对意见则默认立项通过,如有任何疑问或者需要帮助均可随时联系微信:at-Sm1les
The text was updated successfully, but these errors were encountered: