===
感谢大佬的总结,非常全面。LLM 作为新型的知识库或许是一个新机会,原来手工构建的知识库可能都会被大模型取代;从 EMNLP19 "Language Models as Knowledge Bases" 就已经有这个端倪,最近一些工作也尝试从模型 probe 出世界知识用到具体任务中,譬如 KDD22 "Proton: Probing Schema Linking Information from Pre-trained Language Models for Text-to-SQL Parsing" 也有比较好的提升;所以 LLM 第一个 "颠覆" 的领域可能是 KB [捂脸]
写得太好了!把最近的 LLM 需要关注的进展总结得淋漓尽致!唯一有一点我觉得可能还值得商榷,就是大模型稀疏化的必要性。从 Google 论文的结果来看,MOE 稀疏化的大模型通常会被小得多的 dense model 吊打。过去几年的各种稀疏化研究似乎也表明似乎深度学习模型可能不太适合稀疏化。
一块RTX3090跑ChatGPT体量模型的方法来了!代码已开源
当ChatGPT和Stable diffusion碰撞:谷歌用人类反馈提升文生图效果
李宏毅-ChatGPT 原理剖析1對ChatGPT的常見誤解
打造中国版ChatGPT,这是国内最有实力的一批NLP团队与人才
ChatGPT是怎么练成的?斯坦福CS224N课程讲解《自然语言生成》等核心技术,附71页Slides
历史最全ChatGPT、LLM相关书籍、论文、博客、工具、数据集、开源项目等资源整理分享
本资源整理了有关 ChatGPT、GPT 和大型语言模型 (LLM)的必读论文、博客、工具、数据集、开源项目等资源,需要自取。
GPT一直是openAI在主攻,其他公司大部分都在做bert方向,GPT1、2出来的时候效果也不好,大家都看不上,但是从GPT3开始,大家才发现,好像真给openAI搞出点什么来,不过也仅仅是一点点,那个时候GPT3生成的东西也不够惊艳。后面加入了prompt,让模型有了很强的理解能力,又引入了强化学习,才造就了如今这个惊艳的产品。
ChatGPT基础模型就是GPT3,标注instruct prompt+RLHF。
国内对大模型的研究也并没有落下国外太多,不过应用落地确实差点,下面列下我知道的大模型吧,也不全
模型 所属 参数量 ChatGPT/InstructGPT closeAI 175B OPT/OPT-IML Meta 175B/30B/13B ERNIE 3/2/1 百度 260B/100B/10B 中文GPT-3 阿里 27B 悟道2 北京智源 1750B(神威超算训的,不愧是国家队) GLM 清华 130B/10B PALM/flan-PALM 540B Gopher deepmind 280B
符尧 [email protected]的几篇文章
以ChatGPT为代表的大语言模型训练框架包含五步:
- 基座预训练(Base pretrain)
- SFT微调(Supervised Fine-Tuning)
- 奖励函数训练(Reward Modeling, RM),最常用的是基于排序的奖励函数建模(Ranking-Based Reward Modeling,RBRM)
- 基于人类反馈的强化学习(RLHF,基于RM/RBRM进行PPO强化学习训练)
- 与人类对齐(Align AI with human values)
ChatGPT训练算力估算:1万块A100 GPU是误传,中小创企也可突围
微软云计算服务平台Azure为OpenAI搭建的用于训练ChatGPT的训练算力集群使用了超过4453颗64核的CPU,以及超过10000个Nvidia Tesla V100 GPU,总计约2227台服务器,成本越8-10亿人民币。如果使用Nvidia最新的A100GPU,大约需要3000-5000块GPU进行训练(一次训练耗时两周),成本大约6-8.5亿人民币,但目前Nvidia A100 GPU对我国禁运。