大規模言語モデル(LLM)は、多様なデータセットでの広範な事前学習にもかかわらず、実用的かつ信頼性のある展開のために人間の好みに効果的に整合させる必要があります。従来の整合方法は一般的にオフポリシー学習を採用し、人間によって注釈付けされたデータセットに依存しているため、広範な適用性が制限され、トレーニング中に分布のシフト問題を引き起こします。これらの課題に対処するために、自己改善者に基づく自己生成された好みの最適化(SGPO)という革新的な整合フレームワークを提案します。具体的には、改善者はポリシーモデルからの応答を洗練し、ポリシーモデルの直接的な好み最適化(DPO)のために好みデータを自己生成します。ここで、改善者とポリシーは単一のモデルに統合されており、より高品質な好みデータを生成するために、この自己改善者は監視付きファインチューニングの出力を参照することによって、現在の応答に対して漸進的かつ識別可能な改善を行うことを学習します。AlpacaEval 2.0およびArena-Hardにおける実験結果は、提案されたSGPOが外部の好みデータを使用せずに、DPOおよびベースラインの自己改善方法に対してパフォーマンスを大幅に向上させることを示しています。
Leeら(水曜日)はこの問題を研究した。