Key points are not available for this paper at this time.
大規模言語モデル(LLM)はインターネットから膨大なデータを活用し、幅広い既知の知識を蓄積しています。LLMは意思決定支援として有用であることが証明されていますが、推論能力の限界や幻覚現象などにより信頼性に課題があります。一方で、モンテカルロ木探索(MCTS)は、再帰的なロールアウトと自己プレイを通じて信頼できる意思決定を提供するヒューリスティック探索アルゴリズムです。しかし、MCTSの効果はヒューリスティックな剪定や外部の価値関数に大きく依存しており、特に複雑な意思決定において顕著です。本研究は、追加学習なしでチェスや囲碁のような決定的なターン制ゼロサムゲーム(DTZG)を効率的に解決するために、LLMをMCTSの自己プレイと組み合わせる革新的な手法を紹介します。具体的には、LLMをアクションの剪定者および価値関数の代理として活用します。提案手法では推定価値の最適性不足がO(|A|N + ₚruner + critic)に比例することを理論的に証明しており、ここで\(N\)はシミュレーション回数、|A|はLLMが剪定した行動空間の大きさ、ₚrunerとcriticはそれぞれLLMを行動空間の剪定者および価値関数代理として採用することで生じる誤差を示します。チェスと囲碁における実験は、本手法がMCTSの枠を超えた課題に対応可能であり、LLMの直接応用よりも性能を向上させることを実証しました。
Guoら(Fri,)がこの問題を研究しました。