Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

open-deepseek-r1 #319

Open
3 tasks done
Tsumugii24 opened this issue Jan 30, 2025 · 2 comments
Open
3 tasks done

open-deepseek-r1 #319

Tsumugii24 opened this issue Jan 30, 2025 · 2 comments
Labels

Comments

@Tsumugii24
Copy link
Member

Tsumugii24 commented Jan 30, 2025

你是否已经阅读并同意《Datawhale开源项目指南》?

你是否已经阅读并同意《Datawhale开源项目行为准则》?

项目简介

DeepSeek的推理模型DeepSeek-R1-Zero和DeepSeek-R1是通过大规模强化学习(RL)训练的模型,在无需有监督微调(SFT)的情况,在推理方面表现出色。其中 DeepSeek-R1 在数学、代码和推理任务上实现了与 OpenAI-o1 相当的性能。更重要的是,DeepSeek开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 从 DeepSeek-R1 中蒸馏得到的六个模型的权重。该项目希望基于 DeepSeek-R1 Technical Report 深度讨论其中涉及到的技术细节并尝试从模型,数据和算法等关键维度复现DeepSeek-R1的效果,便于对于Reasoning Model及其背后原理感兴趣的学习者学习参考。

立项理由

DeepSeek-R1 在数学、代码和推理任务上的性能比肩 OpenAI-o1,且开源了其模型权重和大致的实现技术路径,某种意义上实现了对o1技术壁垒的突破,让推理模型的性能边界和技术原理不再神秘。本项目希望深入 DeepSeek-R1 的细节,阐释模型设计背后的技术原理并尝试从模型,数据和算法等关键维度复现DeepSeek-R1的效果,便于对于Reasoning Model及其背后原理感兴趣的学习者学习参考,也同时补充了Datawhale目前在推理大语言模型(Reasoning Models)上的空白。

项目受众

  • 有一定基础且对推理大模型感兴趣的领域小白;
  • 对大语言模型领域感兴趣,想要进一步学习和了解深度推理的学习者;
  • 从事大语言模型工作,希望在工作中尝试应用推理大语言模型解决垂直领域问题的打工人;
  • 以及充满学习热情的最广大、最普通的学生群体。

项目亮点

同时兼容算法原理的图文推导和代码层级的理解
模型,数据和算法等关键维度的全面复现DeepSeek-R1的效果
补充了Datawhale目前在推理大语言模型(Large Reasoning Models)上的空白

Reference:
DeepSeek官方仓库 https://github.com/deepseek-ai/DeepSeek-R1
其中的Technical Report是最重要的复现参考
HuggingFace社区的复现项目 https://github.com/huggingface/open-r1
开源社区中起步最早的对于r1的复现项目,对于我们的项目也有一定的参考的帮助作用
llm-reasoners https://github.com/maitrix-org/llm-reasoners
关于使用大语言模型进行规划/推理及相关推理算法实现的Python Library
Awesome-LLM-Strawberry https://github.com/hijkzzz/Awesome-LLM-Strawberry
OpenAI o1 发布后尝试复现和汇总相关资料的集成仓库

项目规划

目录

1 导言
1.1 大语言模型简介
1.2 推理模型简介
1.2.1 LLM and Reasoning
1.2.2 推理效果可视化
1.2.3 OpenAI o1与Inference Scaling Law
1.2.4 Qwen QwQ and Qwen QVQ
1.2.5 DeepSeek-R1 and DeepSeek-R1-Zero
1.3 MoE简介
1.4 模型蒸馏简介

2 推理模型关键算法原理
2.1 CoT,ToT,GoT
2.2 蒙特卡洛树搜索 MCTS
2.3 强化学习 Reinforcement Learning
2.3.1 DPO
2.3.2 PPO
2.3.3 DRPO
2.3.4 GRPO

3 DeepSeek R1技术报告解读

4 DeepSeek R1 Series复现
4.1 Base Model (DeepSeek V3)
4.2 Data
4.3 Reproduction
4.3.1 通过从 DeepSeek-R1 中蒸馏高质量语料库来复现 R1-Distill 模型
4.3.2 复现 DeepSeek 创建 R1-Zero 所使用的纯强化学习(RL)Pipeline
4.3.3 base 模型到 RL-tuned 的多阶段模型训练。

5 DeepSeek推理模型评估
5.1 评估的意义
5.2 数据集
5.3 评估的分数计算算法

6 推理模型应用开发与实践

7 推理模型前沿研究跟进(持续更新)

项目负责人

姜舒凡 @Tsumugii24

预估完成日期

Timeline:
as soon as possible
技术更新迭代太快了~

已完成内容

No response

❗❗❗注意事项❗❗❗:为了便于我们跟你取得联系,请务必加我们的微信:at-Sm1les(备注你来自于项目立项即可),发起立项申请后DOPMC成员将会在7天内给出审核意见并评论在该Issue,若7天内无反对意见则默认立项通过,如有任何疑问或者需要帮助均可随时联系微信:at-Sm1les

  • 我已知悉上述注意事项并添加了微信:at-Sm1les
@anine09
Copy link

anine09 commented Jan 30, 2025

@Tsumugii24 速度太快了,有没有兴趣跟其他同学我们一起来梳理关于deepseek的项目

Image

@Souloki-ai
Copy link

骆师傅带带

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
Development

No branches or pull requests

4 participants