추론은 대형 언어 모델(LLM)이 세계와 상호작용할 수 있도록 하는 필수 기술입니다. 작업이 더욱 복잡해짐에 따라 연속적인 의사 결정을 위한 점점 더 정교하고 다양한 추론 능력을 요구하며, 다음 최상의 행동을 결정하기 위해 문맥 이력을 기반으로 한 구조화된 추론이 필요합니다. 우리는 TALES를 소개합니다. 이는 다양한 추론 능력을 도전하고 평가하도록 설계된 합성 및 인간이 작성한 텍스트 모험 게임의 다양성 있는 모음입니다. 우리는 다양한 LLM에 대한 결과를 제시하며, 개방형 및 폐쇄형 가중치를 가진 모델에 대해 상위 성능 모델에 대한 질적 분석을 수행합니다. 합성 게임에서는 인상적인 성과를 보였지만, 상위 LLM 기반 에이전트조차도 인간의 즐거움을 위해 설계된 게임에서 15%에 미치지 못합니다. 코드와 실험의 시각화는 https://microsoft.github.io/tale-suite에서 찾을 수 있습니다.
Cui et al. (금요일)이 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: