Chatbot Arena：LLM 基准测试平台

原文：www.kdnuggets.com/2023/05/chatbot-arena-llm-benchmark-platform.html

图片由作者提供

我们都知道大型语言模型（LLM）已经在世界范围内掀起了风暴，在如此短的时间内，信息量实在太大。

什么是 Chatbot Arena？

为了再添些许变化，Chatbot Arena是由大型模型系统组织（LMSYS Org）创建的 LLM 基准测试平台。它是一个由加州大学伯克利分校的学生和教职员工创办的开放研究组织。

他们的总体目标是通过使用开放数据集、模型、系统和评估工具的共同开发方法，使大型模型对每个人更加可及。LMSYS 团队训练大型语言模型，并广泛提供这些模型，同时开发分布式系统，以加速 LLM 的训练和推理。

对于 LLM 基准测试的需求

随着 ChatGPT 持续的热度，开源 LLM 迅速增长，这些模型经过微调以遵循特定的指令。比如 Alpaca 和 Vicuna，它们基于 LLaMA，可以根据用户的提示提供帮助。

然而，对于这种快速发展的事物，社区很难跟上不断的新进展，并有效地对这些模型进行基准测试。由于可能存在开放性问题，对 LLM 助手进行基准测试可能是一个挑战。

因此，需要进行人工评估，采用成对比较的方法。成对比较是将模型成对比较以判断哪个模型表现更好的过程。

Chatbot Arena 如何运作？

在 Chatbot Arena 中，用户可以并排与两个匿名模型对话，形成自己的意见，并投票选出哪个模型更好。一旦用户投票，模型的名称将会被揭示。用户可以选择继续与这两个模型对话，或重新开始，与两个新的随机选择的匿名模型对话。

你可以选择同时与两个匿名模型进行对话，或选择你想对话的模型。下面是与两个匿名模型对话的截图示例，展示了 LLM 对战！

图片截图由作者提供

收集的数据会被计算为 Elo 评级，并放入排行榜。Elo 评级系统是一种用于计算玩家相对技能水平的方法，常用于象棋等游戏中。两个用户之间的评级差异可以预测该场比赛的结果。

截至 2023 年 5 月 5 日，这就是 Chatbot Arena 排行榜的样子：

图片来源 Chatbot Arena

如果你想看看这是怎么做的，可以查看 notebook 并自己操作投票数据。

真是一个很棒又有趣的主意，对吧？

我怎么参与？

Chatbot Arena 的团队邀请整个社区通过贡献自己的模型，加入他们的 LLM 基准测试之旅，并参与对匿名模型的投票。

访问 Arena 投票选出你认为更好的模型，如果你想测试特定模型，可以参考指南将其添加到 Chatbot Arena。

总结

那么 Charbot Arena 还会有更多更新吗？根据团队的说法，他们计划进行以下工作：

添加更多闭源模型
添加更多开源模型
定期发布更新的排行榜。例如，每月更新一次。
使用更好的采样算法、锦标赛机制和服务系统来支持更多模型。
为不同任务类型提供精细化的排名系统。

玩一下 Chatbot Arena，告诉我们你的想法吧！

Nisha Arya 是数据科学家、自由技术写作者和 KDnuggets 的社区经理。她特别关注提供数据科学职业建议或教程和理论知识。她还希望探索人工智能如何有助于人类寿命的延续。作为一个热心学习者，她寻求拓宽技术知识和写作技能，同时帮助指导他人。

我们的前三大课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业。

2. Google 数据分析专业证书 - 提升你的数据分析技能

3. Google IT 支持专业证书 - 支持你组织的 IT 需求

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

chatbot-arena-llm-benchmark-platform.md

chatbot-arena-llm-benchmark-platform.md

Chatbot Arena：LLM 基准测试平台

什么是 Chatbot Arena？

对于 LLM 基准测试的需求

Chatbot Arena 如何运作？

我怎么参与？

总结

我们的前三大课程推荐

更多相关信息

Files

chatbot-arena-llm-benchmark-platform.md

Latest commit

History

chatbot-arena-llm-benchmark-platform.md

File metadata and controls

Chatbot Arena：LLM 基准测试平台

什么是 Chatbot Arena？

对于 LLM 基准测试的需求

Chatbot Arena 如何运作？

我怎么参与？

总结

我们的前三大课程推荐

更多相关信息