原文:
www.kdnuggets.com/2023/04/dolly-20-chatgpt-open-source-alternative-commercial.html
作者提供的图片 | Bing 图片创作者
Dolly 2.0 是一种开源的、遵循指令的大语言模型(LLM),经过人类生成的数据集进行了微调。它可用于研究和商业目的。
1. 谷歌网络安全证书 - 快速进入网络安全职业的捷径。
2. 谷歌数据分析专业证书 - 提升你的数据分析能力
3. 谷歌 IT 支持专业证书 - 支持你组织的 IT 需求
图片来源于 Hugging Face Space by RamAnanth1
之前,Databricks 团队发布了Dolly 1.0,这是一种大语言模型(LLM),具有类似 ChatGPT 的指令跟随能力,训练成本不到 $30。它使用了斯坦福 Alpaca 团队的数据集,该数据集在受限许可(仅限研究)下。
Dolly 2.0 通过在高质量人类生成的指令数据集上微调了 12B 参数的语言模型 (Pythia),解决了这个问题,该数据集由 Databricks 员工标注。模型和数据集都可用于商业用途。
Dolly 1.0 的训练数据来自斯坦福 Alpaca 数据集,该数据集使用了 OpenAI API 创建。该数据集包含了 ChatGPT 的输出,并防止任何人利用该数据集与 OpenAI 竞争。简而言之,你不能基于这个数据集构建商业聊天机器人或语言应用程序。
最近几周发布的大多数最新模型都遇到了相同的问题,例如 Alpaca、Koala、GPT4All 和 Vicuna。为了应对这些问题,我们需要创建新的高质量数据集以供商业使用,这正是 Databricks 团队通过 databricks-dolly-15k 数据集所做的。
新的数据集包含 15,000 个高质量的人类标注的提示/回应对,这些数据对设计指令调优的大型语言模型非常有用。databricks-dolly-15k 数据集采用 Creative Commons Attribution-ShareAlike 3.0 Unported License 许可协议,允许任何人使用、修改并创建商业应用。
OpenAI 的研究 论文 表示,原始的 InstructGPT 模型是基于 13,000 个提示和回应进行训练的。利用这些信息,Databricks 团队开始着手这项工作,但生成 13k 个问题和答案是一项艰巨的任务。他们不能使用合成数据或 AI 生成的数据,必须对每个问题生成原创答案。这就是他们决定使用 5,000 名 Databricks 员工来创建人类生成数据的原因。
Databricks 举办了一场比赛,前 20 名标注者将获得丰厚的奖品。在这场比赛中,有 5,000 名对 LLMs 非常感兴趣的 Databricks 员工参与了比赛。
dolly-v2-12b 不是一个最先进的模型。在一些评估基准上,它的表现不如 dolly-v1-6b。这可能与底层微调数据集的组成和规模有关。Dolly 模型系列仍在积极开发中,所以你可能会在未来看到一个性能更好的更新版本。
简而言之,dolly-v2-12b 模型在性能上优于 EleutherAI/gpt-neox-20b 和 EleutherAI/pythia-6.9b。
图片来自 Free Dolly
Dolly 2.0 完全开源。它包括训练代码、数据集、模型权重和推理管道。所有组件都适合商业使用。你可以在 Hugging Face Spaces 上尝试该模型,Dolly V2 by RamAnanth1。
图片来自 Hugging Face
资源:
-
训练和推理代码:databrickslabs/dolly
-
Dolly 2.0 模型权重:databricks/dolly-v2-12b
-
databricks-dolly-15k 数据集:dolly/data
Dolly 2.0 演示:Dolly V2 by RamAnanth1
Abid Ali Awan(@1abidaliawan)是一位认证的数据科学专业人士,热衷于构建机器学习模型。目前,他专注于内容创作,并撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是使用图神经网络构建一个 AI 产品,帮助那些受心理疾病困扰的学生。