原文:
www.kdnuggets.com/the-quest-for-model-confidence-can-you-trust-a-black-box
作者提供的图片
像 GPT-4 和 LLaMA2 这样的**大型语言模型(LLMs)**已经进入了数据标注的领域。LLMs 已经取得了长足的进步,现在可以进行数据标注并承担历史上由人类完成的任务。尽管使用 LLM 获取数据标签非常迅速且相对便宜,但仍然存在一个大问题,这些模型是终极的黑箱。因此,燃眉之急是:我们应该对这些 LLM 生成的标签有多少信任?在今天的文章中,我们将解开这一难题,以建立一些基本准则来评估我们对 LLM 标注数据的信任度。
1. Google 网络安全证书 - 快速开启网络安全职业生涯。
2. Google 数据分析专业证书 - 提升您的数据分析技能
3. Google IT 支持专业证书 - 支持您的组织 IT 需求
下面展示的结果来自于Toloka进行的一项实验,该实验使用了流行的模型和土耳其语的数据集。这不是一份科学报告,而是对可能解决该问题的方法的简要概述,以及一些关于如何确定哪种方法最适合您的应用程序的建议。
在我们深入细节之前,这里有一个重大问题:我们何时可以相信由 LLM 生成的标签,何时应该保持怀疑?了解这一点可以帮助我们进行自动化数据标注,并且在客户支持、内容生成等其他应用任务中也会很有用。
当前的情况
那么,人们现在是如何解决这个问题的呢?有些人直接要求模型输出一个置信度分数,有些人查看模型在多次运行中的答案一致性,而另一些人则检查模型的对数概率。但是这些方法中的任何一种是否可靠呢?让我们来找出答案。
什么才算一个“好的”置信度测量?一个简单的规则是置信度分数与标签的准确性之间应该存在正相关。换句话说,更高的置信度分数应该意味着更高的正确概率。您可以使用校准图来可视化这种关系,其中 X 轴和 Y 轴分别表示置信度和准确性。
自我置信度方法涉及直接询问模型关于其置信度的情况。结果还不错!虽然我们测试的 LLM 在非英语数据集上表现不佳,但自我报告的置信度与实际准确性之间的相关性相当稳固,这意味着模型对其局限性有很好的认识。我们在这里也得到了类似的结果,GPT-3.5 和 GPT-4 一样。
设置较高的温度(~0.7–1.0),对同一项目进行多次标注,并分析答案的一致性,更多细节请参见这篇论文。我们用 GPT-3.5 进行过尝试,结果简直是一团糟。我们让模型多次回答同一个问题,结果总是不可预测。这种方法和让魔法 8 球提供生活建议一样可靠,不应该被信任。
对数概率带来了意外的惊喜。Davinci-003 在完成模式下返回标记的对数概率。检查这些输出后,我们得到了一个与准确性高度相关的令人惊讶的良好置信度评分。这种方法提供了一种确定可靠置信度评分的有希望的方法。
那么,我们学到了什么?来吧,直接了当:
-
自我置信度:有用,但需要谨慎对待。偏差被广泛报告。
-
一致性:尽量避免。除非你喜欢混乱。
-
对数概率:如果模型允许你访问它们,目前看来是一个相当不错的选择。
激动人心的部分?尽管这篇论文报告这种方法过于自信,但对数概率似乎相当稳健,即使在没有微调模型的情况下。这仍然有进一步探索的空间。
合理的下一步可能是找到一个结合这三种方法最佳部分的黄金公式,或者探索新的方法。因此,如果你准备接受挑战,这可能是你下一个周末的项目!
好了,机器学习爱好者和新手们,今天的内容就到这里。记住,无论你是在进行数据标注还是构建下一个大规模对话代理——理解模型置信度至关重要。不要轻信那些置信度评分,确保做好功课!
希望你觉得这些内容有启发。下次见,继续分析数据,质疑模型。
伊万·扬什奇科夫 是应用科学大学伍尔茨堡-施韦因富特 AI 与机器人中心的语义数据处理与认知计算教授。他还领导 Toloka AI 的数据倡导者团队。他的研究兴趣包括计算创造力、语义数据处理和生成模型。