原文:
www.kdnuggets.com/2023/07/chatgpt-dethroned-claude-became-new-ai-leader.html
“伟大的 AI 竞赛”。来源:作者使用Tiago Hoisel风格的扩散模型
在过去几个月里,我们已经习惯了 AI 的持续突破。
但没有创纪录的公告将新标准提高到之前的 10 倍,这正是 Anthropic 通过其最新版本的聊天机器人 Claude(ChatGPT 最大的竞争对手)所做的。
这确实让周围的所有人感到羞愧。
现在,你很快就能将数小时的文本和信息搜索缩短到几秒钟,使生成式 AI 聊天机器人从简单的对话代理发展成为真正改变生活的工具。
正如你所知道的,通过生成式 AI,我们为 AI 打开了生成文本或图像等内容的窗口,这非常棒。
但正如技术中的任何事物一样,这也带来了一个权衡问题,即生成式 AI 模型缺乏对*‘好’或‘坏’*的意识或判断。
事实上,他们已经具备了通过模仿人类生成的数据来生成文本的能力,而这些数据大多数时候隐藏了有争议的偏见和可疑的内容。
遗憾的是,由于这些模型随着规模的增大而变得更为出色,因此有理由将不管内容如何的任何文本都投入其中,这种诱惑尤为强烈。
而这带来了巨大的风险。
由于缺乏判断力,基础的大型语言模型(通常称为基础 LLMs)特别危险,因为它们非常容易学习其训练数据隐藏的偏见,因为它们会重演那些相同的行为。
例如,如果数据存在种族偏见,这些 LLMs 就会成为这种偏见的具象化体现。同样的道理也适用于恐同症和你能想象的任何其他歧视。
因此,考虑到许多人将互联网视为测试自己不道德和不伦理极限的完美游乐场,LLMs 在没有任何保护措施的情况下用几乎所有互联网数据进行训练,这本身就揭示了潜在的风险。
幸运的是,像 ChatGPT 这样的模型是基础模型的进化,通过将其响应对齐到人类认为*‘合适’*的标准来实现的。
这一点是通过一种称为人类反馈的强化学习(Reinforcement Learning for Human Feedback,RLHF)的奖励机制完成的。
特别是,ChatGPT 经过了 OpenAI 工程师的严格筛选,这些工程师将一个非常危险的模型转变为不仅偏见更少,而且在执行指令方面更加有用和出色的模型。
不出所料,这些 LLMs 通常被称为指令调优语言模型。
当然,OpenAI 的工程师不应负责决定什么对世界其他地方的好坏,因为他们也有自己的一份偏见(文化、民族等)。
归根结底,即使是最善良的人类也有偏见。
不用说,这个过程并不完美。
我们在多个案例中看到这些模型,尽管声称对齐,但对用户表现得不靠谱,甚至有些卑劣,这些情况被许多使用 Bing 的人所经历,迫使微软将互动的上下文限制在几条消息内,然后事情开始变得不对劲。
考虑到这些,当两位前 OpenAI 研究人员创办了 Anthropic 时,他们有了另一个想法……他们计划用 AI 而不是人类来对齐他们的模型,提出了自我对齐这一完全革命性的概念。
首先,团队起草了一部宪法,包含了《世界人权宣言》这样的内容,或者是苹果的服务条款。
通过这种方式,模型不仅被教会预测句子中的下一个单词(就像任何其他语言模型一样),而且还必须在每一个响应中考虑到一部决定它能说什么或不能说什么的宪法。
接下来,由 AI 而不是人类负责对齐模型,有可能将其从人类偏见中解放出来。
但 Anthropic 最近发布的关键消息并不是将它们的模型对齐到人类可以容忍和利用的 AI 的概念,而是一个最近的公告,使 Claude 成为了 GenAI 战争中坚定的主导者。
具体来说,它将上下文窗口从 9,000 个标记增加到了 100,000 个。这是一次前所未有的改进,具有不可比拟的影响。
但这意味着什么,这些影响是什么?
让我明确指出,这个*‘标记’*概念的重要性不可忽视,因为尽管许多人可能告诉你,大型语言模型并不是预测序列中的下一个单词……至少不是字面意义上的。
在生成响应时,大型语言模型预测下一个标记,这通常代表 3 到 4 个字符,而不是下一个单词。
自然地,这些标记可能代表一个词,或者词可以由多个标记组成(作为参考,100 个标记大约代表 75 个词)。
在进行推理时,像 ChatGPT 这样的模型会将你给它的文本拆分成部分,并执行一系列矩阵计算,这一概念被定义为自注意力,结合文本中的所有不同标记以学习每个标记如何影响其他标记。
这样,模型*“学习”*文本的意义和上下文,然后才能进行响应。
问题在于,这个过程对模型来说计算量非常大。
精确来说,计算要求与输入长度的平方成正比,因此你给它的文本越长(被描述为上下文窗口),运行模型的成本在训练和推理时就越高。
这迫使研究人员大幅限制模型输入的允许大小,通常在 2,000 到 8,000 个标记之间,后者大约是 6,000 字。
可预测的是,限制上下文窗口严重削弱了 LLM 对我们生活的影响,使它们成为一个只能帮你做少量事情的有趣工具。
但为什么增加这个上下文窗口能够解锁 LLM 最大的潜力?
那么,这很简单,因为它解锁了 LLM 最强大的功能——上下文学习。
简而言之,LLM 具备一种罕见的能力,允许它们*“随时学习”*。
如你所知,训练 LLM 既昂贵又危险,特别是因为训练它们需要你提供数据,而这不是保护隐私的最佳选择。
此外,每天都有新数据出现,因此如果你需要不断对模型进行微调——进一步训练——LLM 的商业前景将会被彻底打破。
幸运的是,LLM 在被称为上下文学习的概念上表现出色,这种学习能力是不需要实际修改模型权重的。
换句话说,它们可以通过简单地提供所需的数据来学习回答你的查询,而不需要实际训练模型。
这个概念,也被称为零样本学习或少样本学习(具体取决于需要多少次看到数据才能学习),是 LLM(大型语言模型)使用之前未见过的数据准确回应特定请求的能力。
因此,上下文窗口越大,你可以提供的数据就越多,模型能够回答的复杂查询也就越多。
因此,尽管小的上下文窗口对于聊天和其他简单任务来说还算可以,但它们完全无法处理真正强大的任务……直到现在。
我会直入主题。
正如我之前提到的,最新版本的 Claude,版本 1.3,可以一次性处理 100,000 个标记,或大约 75,000 字。
但这并没有告诉你很多,对吧?
让我给你一个更清晰的概念,75,000 字的内容大致是什么样的。
你现在正在阅读的文章不到 2,000 字,这比 Claude 目前一次性处理的能力少了 37.5 倍以上。
*但类似大小的例子有哪些?*更具体地说,75,000 字代表:
-
大约相当于玛丽·雪莱的《科学怪人》全书的长度
-
整本*《哈利·波特与魔法石》*,共有 76,944 字
-
任何一部《纳尼亚传奇》书籍,因为它们的字数都较少
-
而最令人印象深刻的数字是,这些对话的总量足以涵盖最多 8 部《星球大战》电影的对话……综合起来。
现在,想象一下一个聊天机器人,它可以在几秒钟内让你询问关于任何给定文本的任何问题。
比如,我最近看到一个视频,他们给 Claude 提供了一个长达五小时的 John Cormack 播客,模型不仅能够用几个词总结整个播客,它还能够指出在五小时长的演讲过程中某个特定时刻说的具体内容。
难以想象,不仅这个模型能够处理 75,000 字的转录文本,更令人震惊的是,它还能够处理它可能第一次看到的数据。
毫无疑问,这对学生、律师、研究科学家以及任何需要同时处理大量数据的人来说都是终极解决方案。
对我而言,这是一种在人工智能领域中少见的范式转变。
毫无疑问,真正颠覆性创新的大门已经为 LLMs 打开。
人工智能在短短几个月内的变化令人难以置信,每周变化的速度更是惊人。我们唯一知道的是,它在变化……一步步来。
Ignacio de Gregorio Noblejas 在技术领域拥有超过五年的全面经验,目前担任顶级咨询公司的一名管理咨询经理,在技术采纳和数字化转型方面提供战略指导,积累了丰富的背景。他的专业知识不仅限于咨询工作,在空闲时间,他还通过在 Medium 上的写作和每周通讯 TheTechOasis 向更广泛的受众分享他对人工智能(AI)最新进展的深刻见解,这些平台分别拥有超过 11,000 和 3,000 名活跃读者。
原文。经许可转载。