推論は、大規模言語モデル(LLM)が世界と相互作用するために不可欠なスキルです。タスクがより複雑になるにつれて、順次的な意思決定に対して、より洗練された多様な推論能力が求められ、次の最適な行動を決定するために文脈履歴に基づく構造的な推論が必要となります。私たちは、さまざまな推論能力を試し評価するために設計された合成および人間が書いたテキストアドベンチャーゲームの多様なコレクションであるTALESを紹介します。私たちは、さまざまなLLM、オープンおよびクローズウェイトにわたる結果を提示し、最もパフォーマンスが高いモデルに対して定性的分析を行います。合成ゲームでは印象的な結果を示しましたが、人間の楽しみのために設計されたゲームでは、上位のLLM駆動エージェントでさえ15%を達成できません。実験のコードと可視化は [https://microsoft.github.io/tale-suite](https://microsoft.github.io/tale-suite) で見つけることができます。
Cui et al. (金曜日) はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: