Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

unlock-deepseek #320

Open
3 tasks done
anine09 opened this issue Jan 30, 2025 · 0 comments
Open
3 tasks done

unlock-deepseek #320

anine09 opened this issue Jan 30, 2025 · 0 comments
Labels

Comments

@anine09
Copy link

anine09 commented Jan 30, 2025

你是否已经阅读并同意《Datawhale开源项目指南》?

你是否已经阅读并同意《Datawhale开源项目行为准则》?

项目简介

面向广泛 AI 研究爱好者群体的 DeepSeek 系列工作解读、扩展和复现,致力于传播 DeepSeek 在 AGI 实践之路上的创新性成果,并提供从 0 代码实现,打造 LLM 前沿技术教学项目

立项理由

DeepSeek 的推理模型 DeepSeek-R1-Zero 和DeepSeek-R1是通过大规模强化学习(RL)训练的模型,在无需有监督微调(SFT)的情况,在推理方面表现出色,其中 DeepSeek-R1 在数学、代码和推理任务上实现了与 OpenAI-o1 相当的性能,且开源了其模型权重和大致的实现技术路径,某种意义上实现了对 o1 技术壁垒的突破,让推理模型的性能边界和技术原理不再神秘,更重要的是,DeepSeek 开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 从 DeepSeek-R1 中蒸馏得到的六个模型的权重

我们希望基于 DeepSeek-R1 Technical Report 和其他 DeepSeek 公开的论文,总结 DeepSeek 系列工作,深入 DeepSeek-R1 的细节,阐释模型设计背后的技术原理并尝试复现 DeepSeek-R1,便于对于 Reasoning Model 及其背后原理感兴趣的学习者学习参考,也同时补充了 Datawhale 目前在推理大语言模型(Reasoning Models)和 MoE 上的空白

项目受众

  • 有大语言模型相关概念基础,具有大学数理能力的初学者
  • 希望进一步了解深度推理的学习者
  • 希望将推理模型运用到实际工作中的从业人员

项目亮点

我们将 DeepSeek-R1 及其系列工作拆分为三个重要部分:

  • MoE
  • Reasoning Models
  • 关键要素 Keys(Data、Infra、...)

与大众的关注性价比优势不同,我们关注 DeepSeek 在实践 AGI 之路的创新性工作,致力于将 DeepSeek 现有公开工作细分拆解,向更广泛的 AI 研究爱好者讲述清楚其中的创新方法细节,同时我们会对比介绍同期其他类似工作(如 Kimi-K1.5),呈现 AGI 之路的不同可能性

我们也将结合其他社区的工作,探索 DeepSeek-R1 的复现方案,提供中文复现教程

项目规划

目录

  1. MoE: DeepSeek 所坚持的架构

    1. DeepSeek-R1 蒸馏模型(Qwen)的部署(self-llm/DeepSeek-R1-Distill-Qwen)
    2. MoE 历史脉络回顾
    3. MoE 从 0 实现(tiny-universe/Tiny MoE)
    4. [多个小节] DeepSeek 模型中的 MoE 设计解读(带实现)
  2. Reasoning Models: DeepSeek-R1 的关键技术

    1. 推理模型介绍
      1. LLM and Reasoning
      2. 推理效果可视化
      3. OpenAI-o1与Inference Scaling Law
      4. Qwen-QwQ and Qwen-QVQ
      5. DeepSeek-R1 and DeepSeek-R1-Zero
      6. Kimi-K1.5
    2. 推理模型关键算法原理(2.1 推理模型介绍里涉及的技术尽量都覆盖到)
      1. CoT,ToT,GoT
      2. 蒙特卡洛树搜索 MCTS
      3. 强化学习概念速览
      4. DPO、PPO、GRPO
      5. ...
  3. [实验性] Keys: DeepSeek 为什么便宜又好用
    由于缺失大量资料,这部分只能尽力而为

    • Data
    • Infra
    • Trick
    • Distill
    • ...

预计完成时间

具体时间难以估计,项目希望以知识点为最小单位,快速迭代,产出公众号文章,知识点迭代完成时,项目框架已经构建出大概,再在这个基础上做填补工作

项目负责人

骆秀韬 @anine09
姜舒凡 @Tsumugii24

已完成内容

啥也没有,春节快乐!—— unlock-deepseek 团队留于大年初二

❗❗❗注意事项❗❗❗:为了便于我们跟你取得联系,请务必加我们的微信:at-Sm1les(备注你来自于项目立项即可),发起立项申请后DOPMC成员将会在7天内给出审核意见并评论在该Issue,若7天内无反对意见则默认立项通过,如有任何疑问或者需要帮助均可随时联系微信:at-Sm1les

  • 我已知悉上述注意事项并添加了微信:at-Sm1les
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
Development

No branches or pull requests

2 participants