diff --git a/src/zh/posts/reasoning/LATS.md b/src/zh/posts/reasoning/LATS.md index b6d09260c..55a915629 100644 --- a/src/zh/posts/reasoning/LATS.md +++ b/src/zh/posts/reasoning/LATS.md @@ -83,4 +83,8 @@ LATS是基于ReAct的支持顺序推理或决策任务的模型。该模型使 本文研究了在HotPotQA数据集上使用内部推理和外部检索策略的表现。现代LLMs已经编码了事实知识,可以直接回答问题。搜索方法ToT和RAP可以采样和探索更多输出,对需要推理的问题有更大的提升。LATS比ReAct表现更好,即使采样相同数量的轨迹,通过扩展更多节点进行有原则的搜索。在内部推理方面,LATS与RAP相当,但表现不如行动。将内部和外部推理结合起来,LATS的表现最好,表明外部反馈在增强推理方面的重要性。 -本文介绍了一个复杂的决策环境WebShop,它是一个在线购物环境,由一个包含1.18M真实产品和12k人类指令的网站组成。文章使用预构建的搜索和点击命令以及浏览器反馈和反思作为观察。通过平均得分和成功率两个指标来评估性能。结果表明,GPT-3.5与ReAct在WebShop中表现出与模仿学习相当的竞争力,并且可以超越强提示策略的强化学习技术。使用LATS可以显著提高性能,表明它可以在相同的迭代次数下实现更有效的探索。 \ No newline at end of file +本文介绍了一个复杂的决策环境WebShop,它是一个在线购物环境,由一个包含1.18M真实产品和12k人类指令的网站组成。文章使用预构建的搜索和点击命令以及浏览器反馈和反思作为观察。通过平均得分和成功率两个指标来评估性能。结果表明,GPT-3.5与ReAct在WebShop中表现出与模仿学习相当的竞争力,并且可以超越强提示策略的强化学习技术。使用LATS可以显著提高性能,表明它可以在相同的迭代次数下实现更有效的探索。 + +## 5 总结 + +这项工作介绍了语言代理树搜索(LATS)框架,它是第一个将规划、行动和推理统一起来以增强LLM问题解决能力的框架。通过使用搜索算法有意构建轨迹、整合外部反馈并使代理能够从经验中学习,LATS解决了之前提示技术的关键限制。我们的评估证明了LATS利用LLM能力在各种决策任务中的能力,同时保持其推理能力而无需额外训练。搜索、交互和反思之间的协同提供了一种多功能的自主决策方法,突显了LLM作为通用代理的潜力。 \ No newline at end of file