Key points are not available for this paper at this time.
AlphaGoのようなゲームプレイエージェントは、自己プレイを通じて人間を超えたパフォーマンスを達成してきましたが、これは競技ゲームにおいて最適な方針を得ることが理論的に保証されています。しかし、ほとんどの言語タスクは部分的または完全に協力的であるため、自己プレイのような技術が言語モデルの改善に効果的に使用できるかどうかは未解決の問題です。私たちは、Deal or No Deal(DoND)と呼ばれる交渉ゲームの設定でこの問題を実証的に調査します。重要なのは、DoNDの目的が完全に協力的なゲーム、厳密に競争的なゲーム、またはその中間のいずれかを生成するように修正できることです。私たちは、これらの各目的のためにDoNDでフィルタリングされた行動クローンの複数ラウンドの自己プレイを通じて言語モデルをファインチューニングします。期待に反して、言語モデルの自己プレイは、人間との協力と競争の両方において重要なパフォーマンスの向上をもたらすことが分かり、自己プレイと関連技術が理論的保証の欠如にもかかわらず、有望であることを示唆しています。
Liaoら(Wed,)はこの問いを研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: