Skip to content

Commit

Permalink
update: lats
Browse files Browse the repository at this point in the history
  • Loading branch information
sheli00 committed Dec 11, 2023
1 parent f6c6c58 commit 074c834
Showing 1 changed file with 5 additions and 1 deletion.
6 changes: 5 additions & 1 deletion src/zh/posts/reasoning/LATS.md
Original file line number Diff line number Diff line change
Expand Up @@ -83,4 +83,8 @@ LATS是基于ReAct的支持顺序推理或决策任务的模型。该模型使

本文研究了在HotPotQA数据集上使用内部推理和外部检索策略的表现。现代LLMs已经编码了事实知识,可以直接回答问题。搜索方法ToT和RAP可以采样和探索更多输出,对需要推理的问题有更大的提升。LATS比ReAct表现更好,即使采样相同数量的轨迹,通过扩展更多节点进行有原则的搜索。在内部推理方面,LATS与RAP相当,但表现不如行动。将内部和外部推理结合起来,LATS的表现最好,表明外部反馈在增强推理方面的重要性。

本文介绍了一个复杂的决策环境WebShop,它是一个在线购物环境,由一个包含1.18M真实产品和12k人类指令的网站组成。文章使用预构建的搜索和点击命令以及浏览器反馈和反思作为观察。通过平均得分和成功率两个指标来评估性能。结果表明,GPT-3.5与ReAct在WebShop中表现出与模仿学习相当的竞争力,并且可以超越强提示策略的强化学习技术。使用LATS可以显著提高性能,表明它可以在相同的迭代次数下实现更有效的探索。
本文介绍了一个复杂的决策环境WebShop,它是一个在线购物环境,由一个包含1.18M真实产品和12k人类指令的网站组成。文章使用预构建的搜索和点击命令以及浏览器反馈和反思作为观察。通过平均得分和成功率两个指标来评估性能。结果表明,GPT-3.5与ReAct在WebShop中表现出与模仿学习相当的竞争力,并且可以超越强提示策略的强化学习技术。使用LATS可以显著提高性能,表明它可以在相同的迭代次数下实现更有效的探索。

## 5 总结

这项工作介绍了语言代理树搜索(LATS)框架,它是第一个将规划、行动和推理统一起来以增强LLM问题解决能力的框架。通过使用搜索算法有意构建轨迹、整合外部反馈并使代理能够从经验中学习,LATS解决了之前提示技术的关键限制。我们的评估证明了LATS利用LLM能力在各种决策任务中的能力,同时保持其推理能力而无需额外训练。搜索、交互和反思之间的协同提供了一种多功能的自主决策方法,突显了LLM作为通用代理的潜力。

0 comments on commit 074c834

Please sign in to comment.