Key points are not available for this paper at this time.
最近の研究において、大規模言語モデル(LLMs)は特定の能力(一般的な指示のフォロー、戦略的目標指向、言語理解能力)を探る会話ゲームを「自己プレイ」するよう促されることが確立されました。 resulting interactive game play can be automatically scored. 本論文では、このようなゲームプレイ環境を設定するための提案されたフレームワークの1つを取り上げ、その評価手段としての有用性を様々な次元にわたってさらにテストします。我々は、新しい展開に容易に対応できる一方でデータの汚染を避けることを示し、その中で実施されるテストがまだ飽和していないこと(人間のパフォーマンスは最良のモデルのそれよりもはるかに高い)を示し、プロンプト言語がパフォーマンスに与える影響のような追加の質問の調査にも適していることを示します。このアプローチが、適用されたインタラクティブシステムのモデル選択に関する意思決定の良い基盤を形成し、最終的にはシステムとシミュレートされた評価者の閉ループ開発環境の設定に至る可能性があると信じています。
Beyer et al. (Fri,) がこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: