October 19, 2025Open Access

TALES: テキストアドベンチャー学習環境スイート

Key Points

上位の大規模言語モデルでさえ、人間の楽しみのために設計されたゲームで15%未満の成功率しか達成できず、限界を浮き彫りにしています。
TALESは、合成および人間が書いたテキストアドベンチャーゲームを組み合わせて、モデルの多様な推論スキルを評価します。
定性的分析により、オープンおよびクローズウェイトのさまざまな大規模言語モデル間でパフォーマンスの違いが明らかになりました。
結果は、特に複雑な順次的意思決定シナリオにおける言語モデルの推論能力にギャップがあることを示しています。

Abstract

推論は、大規模言語モデル（LLM）が世界と相互作用するために不可欠なスキルです。タスクがより複雑になるにつれて、順次的な意思決定に対して、より洗練された多様な推論能力が求められ、次の最適な行動を決定するために文脈履歴に基づく構造的な推論が必要となります。私たちは、さまざまな推論能力を試し評価するために設計された合成および人間が書いたテキストアドベンチャーゲームの多様なコレクションであるTALESを紹介します。私たちは、さまざまなLLM、オープンおよびクローズウェイトにわたる結果を提示し、最もパフォーマンスが高いモデルに対して定性的分析を行います。合成ゲームでは印象的な結果を示しましたが、人間の楽しみのために設計されたゲームでは、上位のLLM駆動エージェントでさえ15%を達成できません。実験のコードと可視化は [https://microsoft.github.io/tale-suite](https://microsoft.github.io/tale-suite) で見つけることができます。

Read Full Paperexternally

AIに質問

Bookmark

View Full Paper