Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models

While large language models (LLMs) have demonstrated impressive performance on a range of decision-making tasks, they rely on simple acting processes and fall short of broad deployment as autonomous agents. We introduce LATS (Language Agent Tree Search), a general framework that synergizes the capabilities of LLMs in planning, acting, and reasoning. Drawing inspiration from Monte Carlo tree search in model-based reinforcement learning, LATS employs LLMs as agents, value functions, and optimizers, repurposing their latent strengths for enhanced decision-making. What is crucial in this method is the use of an environment for external feedback, which offers a more deliberate and adaptive problem-solving mechanism that moves beyond the limitations of existing techniques. Our experimental evaluation across diverse domains, such as programming, HotPotQA, and WebShop, illustrates the applicability of LATS for both reasoning and acting. In particular, LATS achieves 94.4\% for programming on HumanEval with GPT-4 and an average score of 75.9 for web browsing on WebShop with GPT-3.5, demonstrating the effectiveness and generality of our method.

arxiv.org


대규모 언어 모델(LLM)은 다양한 의사 결정 작업에서 인상적인 성능을 보여 왔지만, 단순한 연기 프로세스에 의존하기 때문에 자율 에이전트로서 광범위하게 배포하기에는 부족합니다. 계획, 행동, 추론에서 LLM의 기능을 시너지 효과를 낼 수 있는 일반 프레임워크인 LATS(언어 에이전트 트리 검색)를 소개합니다. 모델 기반 강화 학습의 몬테카를로 트리 검색에서 영감을 얻은 LATS는 LLM을 에이전트, 가치 함수 및 최적화 도구로 사용하여 잠재된 강점을 재사용하여 향상된 의사 결정을 내립니다. 이 방법에서 중요한 것은 외부 피드백을 위한 환경을 사용하여 기존 기술의 한계를 뛰어넘는 보다 신중하고 적응적인 문제 해결 메커니즘을 제공한다는 점입니다. 프로그래밍, 핫팟QA, 웹샵 등 다양한 영역에 대한 실험적 평가는 추론과 행동 모두에 대한 LATS의 적용 가능성을 보여줍니다. 특히, 휴먼에벌(HumanEval)에서의 프로그래밍에서는 94.4\%, 웹브라우징에서는 평균 75.9점(GPT-3.5)을 달성하며 LATS의 효과성과 범용성을 입증했습니다.

1ebec223e0dc2bae61abe9e74683776c67fc7252b219f430646531111a0b4e46513deb4fbb5f068d3888026a030ff3fb013fd9d95bb34f

1ebec223e0dc2bae61abe9e74683776c67fc7252b219f430636731111a0b4e468015ba59a530cee90badf1cb477e6dcc2ff5fc5d38f953

- dc official App