Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

update: lats #176

Merged
merged 3 commits into from
Dec 11, 2023
Merged
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
6 changes: 5 additions & 1 deletion src/zh/posts/reasoning/LATS.md
Original file line number Diff line number Diff line change
Expand Up @@ -83,4 +83,8 @@ LATS是基于ReAct的支持顺序推理或决策任务的模型。该模型使

本文研究了在HotPotQA数据集上使用内部推理和外部检索策略的表现。现代LLMs已经编码了事实知识,可以直接回答问题。搜索方法ToT和RAP可以采样和探索更多输出,对需要推理的问题有更大的提升。LATS比ReAct表现更好,即使采样相同数量的轨迹,通过扩展更多节点进行有原则的搜索。在内部推理方面,LATS与RAP相当,但表现不如行动。将内部和外部推理结合起来,LATS的表现最好,表明外部反馈在增强推理方面的重要性。

本文介绍了一个复杂的决策环境WebShop,它是一个在线购物环境,由一个包含1.18M真实产品和12k人类指令的网站组成。文章使用预构建的搜索和点击命令以及浏览器反馈和反思作为观察。通过平均得分和成功率两个指标来评估性能。结果表明,GPT-3.5与ReAct在WebShop中表现出与模仿学习相当的竞争力,并且可以超越强提示策略的强化学习技术。使用LATS可以显著提高性能,表明它可以在相同的迭代次数下实现更有效的探索。
本文介绍了一个复杂的决策环境WebShop,它是一个在线购物环境,由一个包含1.18M真实产品和12k人类指令的网站组成。文章使用预构建的搜索和点击命令以及浏览器反馈和反思作为观察。通过平均得分和成功率两个指标来评估性能。结果表明,GPT-3.5与ReAct在WebShop中表现出与模仿学习相当的竞争力,并且可以超越强提示策略的强化学习技术。使用LATS可以显著提高性能,表明它可以在相同的迭代次数下实现更有效的探索。

## 5 总结

这项工作介绍了语言代理树搜索(LATS)框架,它是第一个将规划、行动和推理统一起来以增强LLM问题解决能力的框架。通过使用搜索算法有意构建轨迹、整合外部反馈并使代理能够从经验中学习,LATS解决了之前提示技术的关键限制。我们的评估证明了LATS利用LLM能力在各种决策任务中的能力,同时保持其推理能力而无需额外训练。搜索、交互和反思之间的协同提供了一种多功能的自主决策方法,突显了LLM作为通用代理的潜力。
Loading