diff --git a/src/zh/README.md b/src/zh/README.md index cddeedeb9..c3e1c8902 100644 --- a/src/zh/README.md +++ b/src/zh/README.md @@ -12,7 +12,7 @@ article: false projects: - icon: circle-question - name: RAG + name: 检索增强生成RAG link: /zh/category/rag/ - icon: circle-question @@ -40,7 +40,7 @@ projects: link: /zh/category/大模型推理/ - icon: puzzle-piece - name: Token + name: Token、分词 link: /zh/category/token/ footer: 分享知识-分享快乐 diff --git a/src/zh/posts/README.md b/src/zh/posts/README.md index 5c14e0ad6..7258471da 100644 --- a/src/zh/posts/README.md +++ b/src/zh/posts/README.md @@ -9,11 +9,11 @@ article: false 本页面包含一些论文分享的分类: -- [RAG](./rag/) +- [检索增强生成RAG](./rag/) - [语言模型](./llm/) - [提示技术](./prompt/) - [微调技术](./finetune/) - [评估方法](./eval/) - [数据集](./dataset/) - [大模型推理](./reasoning/) -- [Token](./token/) \ No newline at end of file +- [Token、分词](./token/) diff --git a/src/zh/posts/dataset/M3KE.md b/src/zh/posts/dataset/M3KE.md new file mode 100644 index 000000000..e38220a97 --- /dev/null +++ b/src/zh/posts/dataset/M3KE.md @@ -0,0 +1,62 @@ +--- +author: shb +icon: palette +category: + - 数据集 +date: 2023-07-08 +tag: + - 语言模型 +shortTitle: M3KE数据集分享 +--- + + +# M3KE评估数据集分享 + +M3KE数据集是一种针对大语言模型的多层次、多主题的知识评估数据集,旨在衡量中文大型语言模型在零样本和少样本设置中获取知识的能力。 + + + +::: tip + +项目地址:https://github.com/tjunlp-lab/M3KE + +项目贡献者/机构:天津大学与华为诺亚方实验室 + +::: + + +## 1 数据集数据 +M3KE 收集了 20,477 个真人标准化考试题目(包含 4 个候选答案),覆盖 71 个任务,包括小学、初中、高中、大学、研究生入学考试题目,涉及人文、历史、政治、法律、教育、心理学、科学、工程技术、艺术等学科。 + +![图1.1 M3KE数据集中任务分布](/assets/images/eval/M3KE_1.png "图1.1 M3KE数据集中任务分布" =430x400) + +## 2 数据集优势 +(1) 契合中国教育体系,覆盖多教育阶段 +研究人员模仿中国学生的教育经历,即小学、初中、高中、大学等主要教育阶段,旨在评估中文大模型在不同教育阶段下的表现。由于每个教育阶段需要掌握的知识点不同(例如,在语文学科中,小学和初中的知识或考点存在明显的差异),因此,M3KE 在不同教育阶段会包含相同的学科。为了提高数据集中学科知识点的覆盖范围,研究人员选择了中国升学考试中的统考试题,包括小升初、中考、高考,研究生入学考试和中国公务员考试等真题题目。 +(2) 覆盖多学科领域 +为提高数据集的学科覆盖率,研究人员基于人文艺术、社会科学和自然科学三大类进行构建,包括:文学、理学,历史、政治、法学、教育学、心理学、科学、工程技术、艺术等学科。为进一步拓展数据集的丰富度,研究人员补充了中医、宗教以及计算机等级考试等任务。 + +![图2.1 M3KE数据集中任务领域和难度的分布](/assets/images/eval/M3KE_2.png "图2.1 M3KE数据集中任务领域和难度的分布" ) + + + +![图2.2 M3KE数据与其他评估数据集对比](/assets/images/eval/M3KE_3.png "图2.2 M3KE数据与其他评估数据集对比") + +## 3 评估结果 + +在零样本设置条件下,模型要求直接回答问题;在少样本设置条件下,会预先给定模型同任务的若干示例,引导模型进行情景学习(In-Context Learning)。在 M3KE 中,所有题目均使用准确率计算得分。 +(1) 不同学科类别下的模型零样本/少样本评估结果 + +![评估结果](/assets/images/eval/M3KE_4.png "图3.1 四个学科分类下各模型的零样本和少样本平均准确率") + +(2) 不同教育阶段下的模型零样本/少样本评估结果 + +![评估结果](/assets/images/eval/M3KE_5.png "图3.2 五个教育水平下各模型的零样本和少样本平均准确率") + +## 4 评估结果分析 + +(1)在零样本评估中(Table 4&6),所有参数小于 10B 的预训练语言模型(未经过微调)准确率都低于随机结果(25%),少样本的设置(Table 5&7)有助于模型性能的提升。但是,GLM130B 在零样本评估的结果好于少样本评估结果,原因可能是 GLM130B 在预训练阶段已经使用了部分指令数据,使其已经具备较好的零样本学习能力。 + +(2)大部分经过微调后的中文大模型仅达到随机结果(25%)水平,即使在小学阶段的测试中(Table 6&7)。这说明较低教育阶段中的知识仍然是当前中文大模型的短板之一。 + +(3)在零样本评估中,BELLE-7B-2M 取得了中文大模型中最好的成绩,但仍然与 GPT-3.5-turbo 有 14.8% 的差距。此外,有监督微调指令的数量也是一个重要的因素,经过两百万指令微调的 BELLE-7B-2M 好于经过二十万指令微调的 BELLE-7B-0.2M(Table 4)。 diff --git a/src/zh/posts/eval/CEval.md b/src/zh/posts/eval/CEval.md index e254b9caa..2f9197317 100644 --- a/src/zh/posts/eval/CEval.md +++ b/src/zh/posts/eval/CEval.md @@ -11,7 +11,7 @@ tag: # sticky: 10 --- -# C-EVAL +# C-EVAL:中文大模型评估榜单 C-Eval是一个针对基础模型的综合中文评估套件。它由 13948 道多项选择题组成,涵盖 52 个不同学科和四个难度级别,如下所示。请访问我们的网站或查看我们的论文以了解更多详细信息。 diff --git a/src/zh/posts/eval/M3KE.md b/src/zh/posts/eval/M3KE.md index fe137c7d2..84f6fdeb7 100644 --- a/src/zh/posts/eval/M3KE.md +++ b/src/zh/posts/eval/M3KE.md @@ -1,63 +1,64 @@ ---- -author: shb -icon: palette -category: - - 评估方法 -date: 2023-07-08 -tag: - - 语言模型 - - 评估 -shortTitle: M3KE数据集分享 ---- - - -# M3KE评估数据集分享 - -M3KE数据集是一种针对大语言模型的多层次、多主题的知识评估数据集,旨在衡量中文大型语言模型在零样本和少样本设置中获取知识的能力。 - - - -::: tip - -项目地址:https://github.com/tjunlp-lab/M3KE - -项目贡献者/机构:天津大学与华为诺亚方实验室 - -::: - - -## 1 数据集数据 -M3KE 收集了 20,477 个真人标准化考试题目(包含 4 个候选答案),覆盖 71 个任务,包括小学、初中、高中、大学、研究生入学考试题目,涉及人文、历史、政治、法律、教育、心理学、科学、工程技术、艺术等学科。 - -![图1.1 M3KE数据集中任务分布](/assets/images/eval/M3KE_1.png "图1.1 M3KE数据集中任务分布" =430x400) - -## 2 数据集优势 -(1) 契合中国教育体系,覆盖多教育阶段 -研究人员模仿中国学生的教育经历,即小学、初中、高中、大学等主要教育阶段,旨在评估中文大模型在不同教育阶段下的表现。由于每个教育阶段需要掌握的知识点不同(例如,在语文学科中,小学和初中的知识或考点存在明显的差异),因此,M3KE 在不同教育阶段会包含相同的学科。为了提高数据集中学科知识点的覆盖范围,研究人员选择了中国升学考试中的统考试题,包括小升初、中考、高考,研究生入学考试和中国公务员考试等真题题目。 -(2) 覆盖多学科领域 -为提高数据集的学科覆盖率,研究人员基于人文艺术、社会科学和自然科学三大类进行构建,包括:文学、理学,历史、政治、法学、教育学、心理学、科学、工程技术、艺术等学科。为进一步拓展数据集的丰富度,研究人员补充了中医、宗教以及计算机等级考试等任务。 - -![图2.1 M3KE数据集中任务领域和难度的分布](/assets/images/eval/M3KE_2.png "图2.1 M3KE数据集中任务领域和难度的分布" ) - - - -![图2.2 M3KE数据与其他评估数据集对比](/assets/images/eval/M3KE_3.png "图2.2 M3KE数据与其他评估数据集对比") - -## 3 评估结果 - -在零样本设置条件下,模型要求直接回答问题;在少样本设置条件下,会预先给定模型同任务的若干示例,引导模型进行情景学习(In-Context Learning)。在 M3KE 中,所有题目均使用准确率计算得分。 -(1) 不同学科类别下的模型零样本/少样本评估结果 - -![评估结果](/assets/images/eval/M3KE_4.png "图3.1 四个学科分类下各模型的零样本和少样本平均准确率") - -(2) 不同教育阶段下的模型零样本/少样本评估结果 - -![评估结果](/assets/images/eval/M3KE_5.png "图3.2 五个教育水平下各模型的零样本和少样本平均准确率") - -## 4 评估结果分析 - -(1)在零样本评估中(Table 4&6),所有参数小于 10B 的预训练语言模型(未经过微调)准确率都低于随机结果(25%),少样本的设置(Table 5&7)有助于模型性能的提升。但是,GLM130B 在零样本评估的结果好于少样本评估结果,原因可能是 GLM130B 在预训练阶段已经使用了部分指令数据,使其已经具备较好的零样本学习能力。 - -(2)大部分经过微调后的中文大模型仅达到随机结果(25%)水平,即使在小学阶段的测试中(Table 6&7)。这说明较低教育阶段中的知识仍然是当前中文大模型的短板之一。 - -(3)在零样本评估中,BELLE-7B-2M 取得了中文大模型中最好的成绩,但仍然与 GPT-3.5-turbo 有 14.8% 的差距。此外,有监督微调指令的数量也是一个重要的因素,经过两百万指令微调的 BELLE-7B-2M 好于经过二十万指令微调的 BELLE-7B-0.2M(Table 4)。 +--- +author: shb +icon: palette +category: + - 评估方法 +date: 2023-07-08 +tag: + - 语言模型 + - 评估 +shortTitle: M3KE-大模型中文评估 +--- + + +# M3KE-大模型中文能力综合评估 + +M3KE数据集是一种针对大语言模型的多层次、多主题的知识评估数据集,旨在衡量中文大型语言模型在零样本和少样本设置中获取知识的能力。 + + + +::: tip + +项目地址:https://github.com/tjunlp-lab/M3KE + +项目贡献者/机构:天津大学与华为诺亚方实验室 + +::: + + +## 1 评估数据 +M3KE 收集了 20,477 个真人标准化考试题目(包含 4 个候选答案),覆盖 71 个任务,包括小学、初中、高中、大学、研究生入学考试题目,涉及人文、历史、政治、法律、教育、心理学、科学、工程技术、艺术等学科。 + +![图1.1 M3KE数据集中任务分布](/assets/images/eval/M3KE_1.png "图1.1 M3KE数据集中任务分布" =430x400) + +## 2 评估优势 +(1) 契合中国教育体系,覆盖多教育阶段 +研究人员模仿中国学生的教育经历,即小学、初中、高中、大学等主要教育阶段,旨在评估中文大模型在不同教育阶段下的表现。由于每个教育阶段需要掌握的知识点不同(例如,在语文学科中,小学和初中的知识或考点存在明显的差异),因此,M3KE 在不同教育阶段会包含相同的学科。为了提高数据集中学科知识点的覆盖范围,研究人员选择了中国升学考试中的统考试题,包括小升初、中考、高考,研究生入学考试和中国公务员考试等真题题目。 +(2) 覆盖多学科领域 +为提高数据集的学科覆盖率,研究人员基于人文艺术、社会科学和自然科学三大类进行构建,包括:文学、理学,历史、政治、法学、教育学、心理学、科学、工程技术、艺术等学科。为进一步拓展数据集的丰富度,研究人员补充了中医、宗教以及计算机等级考试等任务。 + +![图2.1 M3KE数据集中任务领域和难度的分布](/assets/images/eval/M3KE_2.png "图2.1 M3KE数据集中任务领域和难度的分布" ) + + + +![图2.2 M3KE数据与其他评估数据集对比](/assets/images/eval/M3KE_3.png "图2.2 M3KE数据与其他评估数据集对比") + +## 3 评估结果 + +在零样本设置条件下,模型要求直接回答问题;在少样本设置条件下,会预先给定模型同任务的若干示例,引导模型进行情景学习(In-Context Learning)。在 M3KE 中,所有题目均使用准确率计算得分。 +(1) 不同学科类别下的模型零样本/少样本评估结果 + +![评估结果](/assets/images/eval/M3KE_4.png "图3.1 四个学科分类下各模型的零样本和少样本平均准确率") + +(2) 不同教育阶段下的模型零样本/少样本评估结果 + +![评估结果](/assets/images/eval/M3KE_5.png "图3.2 五个教育水平下各模型的零样本和少样本平均准确率") + +## 4 评估结果分析 + +(1)在零样本评估中(Table 4&6),所有参数小于 10B 的预训练语言模型(未经过微调)准确率都低于随机结果(25%),少样本的设置(Table 5&7)有助于模型性能的提升。但是,GLM130B 在零样本评估的结果好于少样本评估结果,原因可能是 GLM130B 在预训练阶段已经使用了部分指令数据,使其已经具备较好的零样本学习能力。 + +(2)大部分经过微调后的中文大模型仅达到随机结果(25%)水平,即使在小学阶段的测试中(Table 6&7)。这说明较低教育阶段中的知识仍然是当前中文大模型的短板之一。 + +(3)在零样本评估中,BELLE-7B-2M 取得了中文大模型中最好的成绩,但仍然与 GPT-3.5-turbo 有 14.8% 的差距。此外,有监督微调指令的数量也是一个重要的因素,经过两百万指令微调的 BELLE-7B-2M 好于经过二十万指令微调的 BELLE-7B-0.2M(Table 4)。 + diff --git a/src/zh/posts/llm/ByteTransformer.md b/src/zh/posts/llm/ByteTransformer.md index b2caeb618..c65e9b5fb 100644 --- a/src/zh/posts/llm/ByteTransformer.md +++ b/src/zh/posts/llm/ByteTransformer.md @@ -2,7 +2,7 @@ author: 猞猁-zlj icon: pen-to-square date: 2023-06-05 -shortTitle: Bytetransformer +shortTitle: ByteTransformer优化推理速度 title: 大幅优化推理速度-ByteTransformer category: - 语言模型 diff --git a/src/zh/posts/llm/GPT.md b/src/zh/posts/llm/GPT.md index 6cb249c0f..b0eea7569 100644 --- a/src/zh/posts/llm/GPT.md +++ b/src/zh/posts/llm/GPT.md @@ -2,7 +2,7 @@ author: 最后的开神-wkyc icon: pen-to-square date: 2023-06-15 -shortTitle: GPT论文分享 +shortTitle: GPT:生成式微调 category: - 语言模型 tag: diff --git a/src/zh/posts/prompt/CIMI.md b/src/zh/posts/prompt/CIMI.md index d6b145377..1a0151232 100644 --- a/src/zh/posts/prompt/CIMI.md +++ b/src/zh/posts/prompt/CIMI.md @@ -6,7 +6,6 @@ shortTitle: "CIMI: 因果启发的可解释框架" category: - 提示技术 tag: - - 推理 - LLM - 可解释 --- diff --git a/src/zh/posts/rag/README.md b/src/zh/posts/rag/README.md index b90719e2a..7bd5e9901 100644 --- a/src/zh/posts/rag/README.md +++ b/src/zh/posts/rag/README.md @@ -1,5 +1,5 @@ --- -title: RAG +title: 检索增强生成RAG icon: puzzle-piece index: false article: false diff --git a/src/zh/posts/prompt/CoT.md b/src/zh/posts/reasoning/CoT.md similarity index 97% rename from src/zh/posts/prompt/CoT.md rename to src/zh/posts/reasoning/CoT.md index 6dfea5fb9..3fb89f00c 100644 --- a/src/zh/posts/prompt/CoT.md +++ b/src/zh/posts/reasoning/CoT.md @@ -1,88 +1,88 @@ ---- -author: lx -icon: wand-magic-sparkles -date: 2023-06-05 -shortTitle: "Chain-of-Thought: 思维链" -category: - - 提示技术 -tag: - - 推理 - - LLM - - CoT ---- - -# Chain-of-Thought: 思维链 - -该文介绍了 `Chain-of-Thought: 思维链` 框架,结合 `in-context`, `few-shot prompting` 以及多步中间推理,通过大模型来改善数学计算、常识推理的效果。 - - - -::: tip -论文题目:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models -作者:Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, Denny Zhou -机构:Google -::: - - - - - ---- - -## 1 背景介绍 - -> 语言模型的本质是对任意一段文本序列的概率进行建模 - -用一个训练好的大语言模型求解推理任务的几种范式: - -### 1.1 Zero-Shot - -![图1.1 Zero-Shot](/assets/images/prompt/cot1.png "图1.1 Zero-Shot" =550x) - -这里语言模型的输入就是一道数学题,连接上一个字符串 `The answer is`,然后让语言模型帮助续写。续写的答案就是80。 - -### 1.2 Zero-Shot-CoT - -![图1.2 Zero-Shot-CoT](/assets/images/prompt/cot2.png "图1.2 Zero-Shot-CoT" =550x) - -`Zero-Shot-CoT` 在 `Zero-Shot` 的基础上增加了一句 `Let's think step by step.`,大语言模型会自动续写推理过程并得出最后的答案。 - -### 1.3 Manual-CoT - -![图1.3 Manual-CoT](/assets/images/prompt/cot3.png "图1.3 Manual-CoT" =400x) - -在输入问题之前,**手动设计**一些问题和答案的样例。`Manual-CoT` 比 `Zero-Shot-CoT` 的性能要好,因为在输入端提供了问题,推理,答案的样例供参考。然而为了提供这些样例就需要人工设计,这就增加了人工的成本。 - -### 1.4 Auto-CoT - -![图1.4 Auto-CoT](/assets/images/prompt/cot4.png "图1.4 Auto-CoT" =400x) - -如何将人工设计样例的过程自动化?步骤如下: -(1)通过多样性选择有代表性的问题 -(2)对于每一个采样的问题,接上 `Let's think step by step.`,直接丢给语言模型,让它帮我们生成中间推理步骤和答案。然后把所有采样的问题和模型自动生成的推理步骤和答案全部拼接在一起来构成 `Few-Shot-Learning` 所需要的样例,最后跟上下面需要求解的问题,一起丢给语言模型,让其帮我们续写。 - - -## 2 思路 - -结合 `in-context`, `few-shot prompting` 以及多步中间推理,通过大模型来改善数学计算、常识推理的效果 - -![图2.1 CoT](/assets/images/prompt/cot5.png "图2.1 CoT" =600x) - -`CoT` 思维链的灵感来源于人做推理的过程,作者借鉴了这个过程,通过设计类似于思维链来激发大模型,使之拥有推理能力,并且能由于这个有逻辑性的思维链的存在,多步的中间推到可以得到最终的正确答案。 - -![图2.2 CoT Examplars](/assets/images/prompt/cot6.png "图2.2 CoT Examplars" =600x) - -## 3 实验结果 - -![图3.1 不同模型实验结果](/assets/images/prompt/cot7.png "图3.1 不同模型实验结果" =480x) - -100B(1000亿参数)参数量以下的模型效果不好,侧面反映了他们的instruct fine-tune不够,COT很难激发他的in-context 推理能力。而在100B以上模型效果很好,甚至超过了之前基于监督训练的SOTA模型。 - - -## 4 参考 - - +--- +author: lx +icon: wand-magic-sparkles +date: 2023-06-05 +shortTitle: "Chain-of-Thought: 思维链" +category: + - 大模型推理 +tag: + - 推理 + - LLM + - CoT +--- + +# Chain-of-Thought: 思维链 + +该文介绍了 `Chain-of-Thought: 思维链` 框架,结合 `in-context`, `few-shot prompting` 以及多步中间推理,通过大模型来改善数学计算、常识推理的效果。 + + + +::: tip +论文题目:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models +作者:Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, Denny Zhou +机构:Google +::: + + + + + +--- + +## 1 背景介绍 + +> 语言模型的本质是对任意一段文本序列的概率进行建模 + +用一个训练好的大语言模型求解推理任务的几种范式: + +### 1.1 Zero-Shot + +![图1.1 Zero-Shot](/assets/images/prompt/cot1.png "图1.1 Zero-Shot" =550x) + +这里语言模型的输入就是一道数学题,连接上一个字符串 `The answer is`,然后让语言模型帮助续写。续写的答案就是80。 + +### 1.2 Zero-Shot-CoT + +![图1.2 Zero-Shot-CoT](/assets/images/prompt/cot2.png "图1.2 Zero-Shot-CoT" =550x) + +`Zero-Shot-CoT` 在 `Zero-Shot` 的基础上增加了一句 `Let's think step by step.`,大语言模型会自动续写推理过程并得出最后的答案。 + +### 1.3 Manual-CoT + +![图1.3 Manual-CoT](/assets/images/prompt/cot3.png "图1.3 Manual-CoT" =400x) + +在输入问题之前,**手动设计**一些问题和答案的样例。`Manual-CoT` 比 `Zero-Shot-CoT` 的性能要好,因为在输入端提供了问题,推理,答案的样例供参考。然而为了提供这些样例就需要人工设计,这就增加了人工的成本。 + +### 1.4 Auto-CoT + +![图1.4 Auto-CoT](/assets/images/prompt/cot4.png "图1.4 Auto-CoT" =400x) + +如何将人工设计样例的过程自动化?步骤如下: +(1)通过多样性选择有代表性的问题 +(2)对于每一个采样的问题,接上 `Let's think step by step.`,直接丢给语言模型,让它帮我们生成中间推理步骤和答案。然后把所有采样的问题和模型自动生成的推理步骤和答案全部拼接在一起来构成 `Few-Shot-Learning` 所需要的样例,最后跟上下面需要求解的问题,一起丢给语言模型,让其帮我们续写。 + + +## 2 思路 + +结合 `in-context`, `few-shot prompting` 以及多步中间推理,通过大模型来改善数学计算、常识推理的效果 + +![图2.1 CoT](/assets/images/prompt/cot5.png "图2.1 CoT" =600x) + +`CoT` 思维链的灵感来源于人做推理的过程,作者借鉴了这个过程,通过设计类似于思维链来激发大模型,使之拥有推理能力,并且能由于这个有逻辑性的思维链的存在,多步的中间推到可以得到最终的正确答案。 + +![图2.2 CoT Examplars](/assets/images/prompt/cot6.png "图2.2 CoT Examplars" =600x) + +## 3 实验结果 + +![图3.1 不同模型实验结果](/assets/images/prompt/cot7.png "图3.1 不同模型实验结果" =480x) + +100B(1000亿参数)参数量以下的模型效果不好,侧面反映了他们的instruct fine-tune不够,COT很难激发他的in-context 推理能力。而在100B以上模型效果很好,甚至超过了之前基于监督训练的SOTA模型。 + + +## 4 参考 + + diff --git a/src/zh/posts/reasoning/GPT4Reason.md b/src/zh/posts/reasoning/GPT4Reason.md index 04ea4a6a2..baf592acc 100644 --- a/src/zh/posts/reasoning/GPT4Reason.md +++ b/src/zh/posts/reasoning/GPT4Reason.md @@ -8,7 +8,7 @@ category: - 大模型推理 tag: - GPT-4 - - Reasoning + - 推理 - OpenAI --- diff --git a/src/zh/posts/prompt/GoT.md b/src/zh/posts/reasoning/GoT.md similarity index 99% rename from src/zh/posts/prompt/GoT.md rename to src/zh/posts/reasoning/GoT.md index 66c001ca7..00d0f3194 100644 --- a/src/zh/posts/prompt/GoT.md +++ b/src/zh/posts/reasoning/GoT.md @@ -4,7 +4,7 @@ icon: wand-magic-sparkles date: 2023-08-27 shortTitle: "Graph-of-Thought: 思维图" category: - - 提示技术 + - 大模型推理 tag: - 推理 - LLM diff --git a/src/zh/posts/reasoning/README.md b/src/zh/posts/reasoning/README.md index d73ddc5d4..8a1460200 100644 --- a/src/zh/posts/reasoning/README.md +++ b/src/zh/posts/reasoning/README.md @@ -6,7 +6,7 @@ article: false category: - 大模型推理 tag: - - Reasoning + - 推理 dir: order: 7 --- \ No newline at end of file diff --git a/src/zh/posts/prompt/ToT.md b/src/zh/posts/reasoning/ToT.md similarity index 98% rename from src/zh/posts/prompt/ToT.md rename to src/zh/posts/reasoning/ToT.md index 7252ac9e3..f7782f0e9 100644 --- a/src/zh/posts/prompt/ToT.md +++ b/src/zh/posts/reasoning/ToT.md @@ -1,108 +1,108 @@ ---- -author: lx -icon: wand-magic-sparkles -date: 2023-06-05 -shortTitle: "Tree-of-Thought: 思维树" -category: - - 提示技术 -tag: - - 推理 - - LLM - - CoT - - ToT ---- - -# Tree-of-Thought: 思维树 - -[该文](https://mp.weixin.qq.com/s/aI4Ltwmm-YXcpT9aiJDdRQ)介绍了 `Tree-of-Thought: 思维树` 框架,由普林斯顿和谷歌DeepMind联合提出的全新「思维树」框架,让GPT-4可以自己提案、评估和决策,推理能力最高可提升1750%。 - - - - - -::: tip -项目地址:https://github.com/kyegomez/tree-of-thoughts -::: - -思维树可以让 `LLM`: -(1)自己给出**多条不同的推理路径** -(2)分别进行评估后,决定下一步的行动方案 -(3)在必要时向前或向后**追溯**,以便实现进行**全局**的决策 -论文实验结果显示,`ToT` 显著提高了 `LLM` 在三个新任务(24点游戏,创意写作,迷你填字游戏)中的问题解决能力。比如,在24点游戏中,`GPT-4` 只解决了 $4\%$ 的任务,但 `ToT` 方法的成功率达到了 $74\%$。 - ---- - -## 1 让LLM反复思考 - -用于生成文本的大语言模型 `GPT`、`PaLM`,现已经证明能够执行各种广泛的任务。所有这些模型取得进步的基础仍是最初用于生成文本的 **自回归机制**,以从左到右的方式一个接一个地进行 `token`级的决策。 - -这样一个简单的机制能否足以建立一个通向**解决通用问题的语言模型**?如果不是,哪些问题会挑战当前的范式,真正的替代机制应该是什么? - -关于**人类认知**的文献中对于**双重过程**模型的研究表明,人类有两种决策模式: -(1)系统1 - 快速、自动、无意识模式。 -(2)系统2 - 缓慢、深思熟虑、有意识模式。 - -语言模型简单关联 `token` 级选择可以让人联想到系统1,因此这种能力可能会从系统2规划过程中增强。系统1可以让 `LLM` 保持和探索当前选择的多种替代方案,而不仅仅是选择一个,而系统2评估其当前状态,并积极地预见、回溯以做出更全局的决策。 - -这个观点突出了现有使用LLM解决通用问题方法的2个主要缺点: -(1)局部来看,`LLM` 没有探索思维过程中的不同延续——树的分支。 -(2)总体来看,`LLM` 不包含任何类型的计划、前瞻或回溯,来帮助评估这些不同的选择。 -为了解决这些问题,研究者提出了用语言模型解决通用问题的思维树框架(ToT),让 `LLM` 可以探索多种思维推理路径。 - -## 2 ToT四步法 - -现有的方法,如 `IO`、`CoT`、`CoT-SC`,通过采样连续的语言序列进行问题解决。而 `ToT` 主动维护了一个思维树。每个矩形框代表一个思维,并且每个思维都是一个连贯的语言序列,作为解决问题的中间步骤。 - -![图2.1 推理框架比较](/assets/images/prompt/ToT1.png =550x) - -`ToT` 将任何问题定义为在树上进行搜索,其中每个节点都是一个状态 $s=\left[x, z_{1 \cdots i}\right]$,表示到目前为止输入和思维序列的部分解。`ToT` 执行一个具体任务时需要回答4个问题: -(1)如何将中间过程分解为思维步骤; -(2)如何从每个状态生成潜在的想法; -(3)如何启发性地评估状态; -(4)使用什么搜索算法。 - -### 2.1 思维分解 - -`CoT` 在没有明确分解的情况下连贯抽样思维,而 `ToT` 利用问题的属性来设计和分解中间的思维步骤。 - -根据不同的问题,一个想法可以是几个单词(填字游戏) ,一条方程式(24点) ,或者一整段写作计划(创意写作)。 - -一个想法应该足够小,以便 `LLM` 能够产生有意义、多样化的样本。但一个想法也应该大,足以让 `LLM` 能够评估其解决问题的前景。 - -### 2.2 思维生成器 - -给定树状态 $s=\left[x, z_{1 \cdots i}\right]$,通过2种策略来为下一个思维步骤生成 $k$ 个候选者。 - -(1)从一个CoT提示采样思维,$z^{(j)} \sim p_{\theta}^{C o T}\left(z_{i+1} \mid s\right)=p_{\theta}^{C o T}\left(z_{i+1} \mid x, z_{1\cdots i}\right)(j=1\cdots k)$,在思维空间丰富(比如每个想法都是一个段落),并且导致多样性时,效果更好。 - -(2)使用 `proposal prompt` 按顺序提出想法,$z^{(j)} \sim p_{\theta}^{C o T}\left(z_{i+1} \mid s\right)=p_{\theta}^{C o T}\left(z_{i+1} \mid x, z_{1\cdots i}\right)(j=1\cdots k)$,这在思维空间受限制(比如每个思维只是一个词或一行)时效果更好,因此在同一上下文中提出不同的想法可以避免重复。 - -### 2.3 状态求值器 - -给定不同状态的前沿,状态评估器评估它们解决问题的进展,作为搜索算法的启发式算法,以确定哪些状态需要继续探索,以及以何种顺序探索。 - -虽然启发式算法是解决搜索问题的标准方法,但它们通常是编程的(DeepBlue)或学习的(AlphaGo)。这里,研究者提出了第三种选择,通过LLM有意识地推理状态。 - -在适用的情况下,这种深思熟虑的启发式方法可以比程序规则更灵活,比学习模型更有效率。与思维生成器,研究人员也考虑2种策略来独立或一起评估状态:对每个状态独立赋值;跨状态投票。 - -### 2.4 搜索算法 - -最后根据树的结构,使用插件化的方式使用不同的搜索算法。 - -(1) 算法1——广度优先搜索(`BFS`),每一步维护一组最有希望的状态。 -(2) 算法2——深度优先搜索(`DFS`),首先探索最有希望的状态,直到达到最终的输出 $t > T$,或者状态评估器认为不可能从当前的$s\left(V\left(p_{\theta},\{s\}\right)(s) \leq v_{t h}\right)$为阈值$v_{th}$解决问题。在这两种情况下,`DFS`都会回溯到 $s$ 的父状态以继续探索。 - -![图2.2 搜索算法](/assets/images/prompt/ToT2.png =700x) - -由上,LLM通过自我评估和有意识的决策,来实现启发式搜索的方法是新颖的。 - -## 3 实验 - -![图3.1 实验设置](/assets/images/prompt/ToT3.png =550x) - -为此,团队提出了三个任务用于测试——即使是最先进的语言模型GPT-4,在标准的IO提示或思维链(CoT)提示下,都是非常富有挑战的。 - -![图3.2 实验结果](/assets/images/prompt/ToT4.png =7000x) - -`IO`,`CoT`和`CoT-SC`提示方法在这几项任务上的表现不佳,成功率仅为 $7.3\%$,$4.0\%$和$9.0\%$。相比之下,`ToT`在广度为 `b = 1` 时已经达到了 $45\%$ 的成功率,而在 `b = 5` 时达到了 $74\%$。同时还考虑了 `IO/CoT` 的预测设置,通过使用最佳的 $k$ 个样本($1 \le k \le 100$)来计算成功率,`CoT`比`IO`扩展得更好,最佳的100个`CoT`样本达到了$49\%$的成功率,但仍然比在`ToT`中探索更多节点($b>1$)要差。 - +--- +author: lx +icon: wand-magic-sparkles +date: 2023-06-05 +shortTitle: "Tree-of-Thought: 思维树" +category: + - 大模型推理 +tag: + - 推理 + - LLM + - CoT + - ToT +--- + +# Tree-of-Thought: 思维树 + +[该文](https://mp.weixin.qq.com/s/aI4Ltwmm-YXcpT9aiJDdRQ)介绍了 `Tree-of-Thought: 思维树` 框架,由普林斯顿和谷歌DeepMind联合提出的全新「思维树」框架,让GPT-4可以自己提案、评估和决策,推理能力最高可提升1750%。 + + + + + +::: tip +项目地址:https://github.com/kyegomez/tree-of-thoughts +::: + +思维树可以让 `LLM`: +(1)自己给出**多条不同的推理路径** +(2)分别进行评估后,决定下一步的行动方案 +(3)在必要时向前或向后**追溯**,以便实现进行**全局**的决策 +论文实验结果显示,`ToT` 显著提高了 `LLM` 在三个新任务(24点游戏,创意写作,迷你填字游戏)中的问题解决能力。比如,在24点游戏中,`GPT-4` 只解决了 $4\%$ 的任务,但 `ToT` 方法的成功率达到了 $74\%$。 + +--- + +## 1 让LLM反复思考 + +用于生成文本的大语言模型 `GPT`、`PaLM`,现已经证明能够执行各种广泛的任务。所有这些模型取得进步的基础仍是最初用于生成文本的 **自回归机制**,以从左到右的方式一个接一个地进行 `token`级的决策。 + +这样一个简单的机制能否足以建立一个通向**解决通用问题的语言模型**?如果不是,哪些问题会挑战当前的范式,真正的替代机制应该是什么? + +关于**人类认知**的文献中对于**双重过程**模型的研究表明,人类有两种决策模式: +(1)系统1 - 快速、自动、无意识模式。 +(2)系统2 - 缓慢、深思熟虑、有意识模式。 + +语言模型简单关联 `token` 级选择可以让人联想到系统1,因此这种能力可能会从系统2规划过程中增强。系统1可以让 `LLM` 保持和探索当前选择的多种替代方案,而不仅仅是选择一个,而系统2评估其当前状态,并积极地预见、回溯以做出更全局的决策。 + +这个观点突出了现有使用LLM解决通用问题方法的2个主要缺点: +(1)局部来看,`LLM` 没有探索思维过程中的不同延续——树的分支。 +(2)总体来看,`LLM` 不包含任何类型的计划、前瞻或回溯,来帮助评估这些不同的选择。 +为了解决这些问题,研究者提出了用语言模型解决通用问题的思维树框架(ToT),让 `LLM` 可以探索多种思维推理路径。 + +## 2 ToT四步法 + +现有的方法,如 `IO`、`CoT`、`CoT-SC`,通过采样连续的语言序列进行问题解决。而 `ToT` 主动维护了一个思维树。每个矩形框代表一个思维,并且每个思维都是一个连贯的语言序列,作为解决问题的中间步骤。 + +![图2.1 推理框架比较](/assets/images/prompt/ToT1.png =550x) + +`ToT` 将任何问题定义为在树上进行搜索,其中每个节点都是一个状态 $s=\left[x, z_{1 \cdots i}\right]$,表示到目前为止输入和思维序列的部分解。`ToT` 执行一个具体任务时需要回答4个问题: +(1)如何将中间过程分解为思维步骤; +(2)如何从每个状态生成潜在的想法; +(3)如何启发性地评估状态; +(4)使用什么搜索算法。 + +### 2.1 思维分解 + +`CoT` 在没有明确分解的情况下连贯抽样思维,而 `ToT` 利用问题的属性来设计和分解中间的思维步骤。 + +根据不同的问题,一个想法可以是几个单词(填字游戏) ,一条方程式(24点) ,或者一整段写作计划(创意写作)。 + +一个想法应该足够小,以便 `LLM` 能够产生有意义、多样化的样本。但一个想法也应该大,足以让 `LLM` 能够评估其解决问题的前景。 + +### 2.2 思维生成器 + +给定树状态 $s=\left[x, z_{1 \cdots i}\right]$,通过2种策略来为下一个思维步骤生成 $k$ 个候选者。 + +(1)从一个CoT提示采样思维,$z^{(j)} \sim p_{\theta}^{C o T}\left(z_{i+1} \mid s\right)=p_{\theta}^{C o T}\left(z_{i+1} \mid x, z_{1\cdots i}\right)(j=1\cdots k)$,在思维空间丰富(比如每个想法都是一个段落),并且导致多样性时,效果更好。 + +(2)使用 `proposal prompt` 按顺序提出想法,$z^{(j)} \sim p_{\theta}^{C o T}\left(z_{i+1} \mid s\right)=p_{\theta}^{C o T}\left(z_{i+1} \mid x, z_{1\cdots i}\right)(j=1\cdots k)$,这在思维空间受限制(比如每个思维只是一个词或一行)时效果更好,因此在同一上下文中提出不同的想法可以避免重复。 + +### 2.3 状态求值器 + +给定不同状态的前沿,状态评估器评估它们解决问题的进展,作为搜索算法的启发式算法,以确定哪些状态需要继续探索,以及以何种顺序探索。 + +虽然启发式算法是解决搜索问题的标准方法,但它们通常是编程的(DeepBlue)或学习的(AlphaGo)。这里,研究者提出了第三种选择,通过LLM有意识地推理状态。 + +在适用的情况下,这种深思熟虑的启发式方法可以比程序规则更灵活,比学习模型更有效率。与思维生成器,研究人员也考虑2种策略来独立或一起评估状态:对每个状态独立赋值;跨状态投票。 + +### 2.4 搜索算法 + +最后根据树的结构,使用插件化的方式使用不同的搜索算法。 + +(1) 算法1——广度优先搜索(`BFS`),每一步维护一组最有希望的状态。 +(2) 算法2——深度优先搜索(`DFS`),首先探索最有希望的状态,直到达到最终的输出 $t > T$,或者状态评估器认为不可能从当前的$s\left(V\left(p_{\theta},\{s\}\right)(s) \leq v_{t h}\right)$为阈值$v_{th}$解决问题。在这两种情况下,`DFS`都会回溯到 $s$ 的父状态以继续探索。 + +![图2.2 搜索算法](/assets/images/prompt/ToT2.png =700x) + +由上,LLM通过自我评估和有意识的决策,来实现启发式搜索的方法是新颖的。 + +## 3 实验 + +![图3.1 实验设置](/assets/images/prompt/ToT3.png =550x) + +为此,团队提出了三个任务用于测试——即使是最先进的语言模型GPT-4,在标准的IO提示或思维链(CoT)提示下,都是非常富有挑战的。 + +![图3.2 实验结果](/assets/images/prompt/ToT4.png =7000x) + +`IO`,`CoT`和`CoT-SC`提示方法在这几项任务上的表现不佳,成功率仅为 $7.3\%$,$4.0\%$和$9.0\%$。相比之下,`ToT`在广度为 `b = 1` 时已经达到了 $45\%$ 的成功率,而在 `b = 5` 时达到了 $74\%$。同时还考虑了 `IO/CoT` 的预测设置,通过使用最佳的 $k$ 个样本($1 \le k \le 100$)来计算成功率,`CoT`比`IO`扩展得更好,最佳的100个`CoT`样本达到了$49\%$的成功率,但仍然比在`ToT`中探索更多节点($b>1$)要差。 + diff --git a/src/zh/posts/reasoning/llmReasonSurvey.md b/src/zh/posts/reasoning/llmReasonSurvey.md index a050dfa60..cd3ee26a1 100644 --- a/src/zh/posts/reasoning/llmReasonSurvey.md +++ b/src/zh/posts/reasoning/llmReasonSurvey.md @@ -9,7 +9,7 @@ category: tag: - Survey - LLM - - Reasoning + - 推理 --- 本文对**语言模型**提示推理的最新进展进行了梳理,包括**预备知识、提示推理方法的分类、深入的比较和讨论、开放的资源和基准、以及未来的潜在方向**。 diff --git a/src/zh/posts/prompt/thor.md b/src/zh/posts/reasoning/thor.md similarity index 99% rename from src/zh/posts/prompt/thor.md rename to src/zh/posts/reasoning/thor.md index 0239e913b..73817cf3c 100644 --- a/src/zh/posts/prompt/thor.md +++ b/src/zh/posts/reasoning/thor.md @@ -2,9 +2,9 @@ author: 猞猁-zlj icon: wand-magic-sparkles date: 2023-09-03 -shortTitle: "THOR: CoT-ISA" +shortTitle: THOR:思维链促进情感分析 category: - - 提示技术 + - 大模型推理 tag: - 推理 - LLM diff --git a/src/zh/posts/token/README.md b/src/zh/posts/token/README.md index 0474cb950..c47ca698a 100644 --- a/src/zh/posts/token/README.md +++ b/src/zh/posts/token/README.md @@ -1,5 +1,5 @@ --- -title: Token +title: Token、分词 icon: puzzle-piece index: false article: false