Skip to content

Latest commit

 

History

History
89 lines (45 loc) · 6.57 KB

dolly-20-chatgpt-open-source-alternative-commercial.md

File metadata and controls

89 lines (45 loc) · 6.57 KB

Dolly 2.0:ChatGPT 开源商业用途替代方案

原文:www.kdnuggets.com/2023/04/dolly-20-chatgpt-open-source-alternative-commercial.html

Dolly 2.0:ChatGPT 开源商业用途替代方案

作者提供的图片 | Bing 图片创作者

Dolly 2.0 是一种开源的、遵循指令的大语言模型(LLM),经过人类生成的数据集进行了微调。它可用于研究和商业目的。


我们的前三个课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业的捷径。

2. 谷歌数据分析专业证书 - 提升你的数据分析能力

3. 谷歌 IT 支持专业证书 - 支持你组织的 IT 需求


Dolly 2.0:ChatGPT 开源商业用途替代方案

图片来源于 Hugging Face Space by RamAnanth1

之前,Databricks 团队发布了Dolly 1.0,这是一种大语言模型(LLM),具有类似 ChatGPT 的指令跟随能力,训练成本不到 $30。它使用了斯坦福 Alpaca 团队的数据集,该数据集在受限许可(仅限研究)下。

Dolly 2.0 通过在高质量人类生成的指令数据集上微调了 12B 参数的语言模型 (Pythia),解决了这个问题,该数据集由 Databricks 员工标注。模型和数据集都可用于商业用途。

为什么我们需要商业许可证数据集?

Dolly 1.0 的训练数据来自斯坦福 Alpaca 数据集,该数据集使用了 OpenAI API 创建。该数据集包含了 ChatGPT 的输出,并防止任何人利用该数据集与 OpenAI 竞争。简而言之,你不能基于这个数据集构建商业聊天机器人或语言应用程序。

最近几周发布的大多数最新模型都遇到了相同的问题,例如 AlpacaKoalaGPT4AllVicuna。为了应对这些问题,我们需要创建新的高质量数据集以供商业使用,这正是 Databricks 团队通过 databricks-dolly-15k 数据集所做的。

databricks-dolly-15k 数据集

新的数据集包含 15,000 个高质量的人类标注的提示/回应对,这些数据对设计指令调优的大型语言模型非常有用。databricks-dolly-15k 数据集采用 Creative Commons Attribution-ShareAlike 3.0 Unported License 许可协议,允许任何人使用、修改并创建商业应用。

他们是如何创建 databricks-dolly-15k 数据集的?

OpenAI 的研究 论文 表示,原始的 InstructGPT 模型是基于 13,000 个提示和回应进行训练的。利用这些信息,Databricks 团队开始着手这项工作,但生成 13k 个问题和答案是一项艰巨的任务。他们不能使用合成数据或 AI 生成的数据,必须对每个问题生成原创答案。这就是他们决定使用 5,000 名 Databricks 员工来创建人类生成数据的原因。

Databricks 举办了一场比赛,前 20 名标注者将获得丰厚的奖品。在这场比赛中,有 5,000 名对 LLMs 非常感兴趣的 Databricks 员工参与了比赛。

结果

dolly-v2-12b 不是一个最先进的模型。在一些评估基准上,它的表现不如 dolly-v1-6b。这可能与底层微调数据集的组成和规模有关。Dolly 模型系列仍在积极开发中,所以你可能会在未来看到一个性能更好的更新版本。

简而言之,dolly-v2-12b 模型在性能上优于 EleutherAI/gpt-neox-20b 和 EleutherAI/pythia-6.9b。

Dolly 2.0: ChatGPT 开源商业替代方案

图片来自 Free Dolly

入门指南

Dolly 2.0 完全开源。它包括训练代码、数据集、模型权重和推理管道。所有组件都适合商业使用。你可以在 Hugging Face Spaces 上尝试该模型,Dolly V2 by RamAnanth1

Dolly 2.0: ChatGPT 开源商业替代方案

图片来自 Hugging Face

资源:

Dolly 2.0 演示:Dolly V2 by RamAnanth1

Abid Ali Awan@1abidaliawan)是一位认证的数据科学专业人士,热衷于构建机器学习模型。目前,他专注于内容创作,并撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是使用图神经网络构建一个 AI 产品,帮助那些受心理疾病困扰的学生。

更多相关话题