October 19, 2025Open Access

TALES: 텍스트 모험 학습 환경 모음

Key Points

최고의 대형 언어 모델조차도 인간의 즐거움을 위해 설계된 게임에서 15% 미만의 성공률을 달성하여 한계를 강조합니다.
TALES는 합성 및 인간이 작성한 텍스트 모험 게임을 결합하여 모델의 다양한 추론 기술을 평가합니다.
질적 분석을 통해 다양한 대형 언어 모델에서 성능 차이를 드러내며, 개방형 및 폐쇄형 모델 모두에서 나타납니다.
결과는 언어 모델의 추론 능력에 격차가 있음을 나타내며, 특히 복잡한 연속적 의사 결정 시나리오에서 더욱 두드러집니다.

Abstract

추론은 대형 언어 모델(LLM)이 세계와 상호작용할 수 있도록 하는 필수 기술입니다. 작업이 더욱 복잡해짐에 따라 연속적인 의사 결정을 위한 점점 더 정교하고 다양한 추론 능력을 요구하며, 다음 최상의 행동을 결정하기 위해 문맥 이력을 기반으로 한 구조화된 추론이 필요합니다. 우리는 TALES를 소개합니다. 이는 다양한 추론 능력을 도전하고 평가하도록 설계된 합성 및 인간이 작성한 텍스트 모험 게임의 다양성 있는 모음입니다. 우리는 다양한 LLM에 대한 결과를 제시하며, 개방형 및 폐쇄형 가중치를 가진 모델에 대해 상위 성능 모델에 대한 질적 분석을 수행합니다. 합성 게임에서는 인상적인 성과를 보였지만, 상위 LLM 기반 에이전트조차도 인간의 즐거움을 위해 설계된 게임에서 15%에 미치지 못합니다. 코드와 실험의 시각화는 https://microsoft.github.io/tale-suite에서 찾을 수 있습니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper