Key points are not available for this paper at this time.
人間の好みデータから学ぶことは、大規模言語モデル(LLMs)をファインチューニングするための主要なパラダイムとして浮上しました。最も一般的な技術ファミリーは、近似ポリシー最適化(PPO)などのオンライン強化学習(RL)と、直接的好み最適化(DPO)などのオフライン対照法です。これらは、両方が同じオフラインの好みデータセットから始めなければならないため、以前の研究では同等であると位置付けられました。オンラインとオフラインの技術における好みのファインチューニングの類似点と相違点についての理論的理解をさらに深めるため、我々はデータセットのカバレッジという視点から厳密な分析を行います。この概念は、トレーニングデータがテスト分布をどのようにカバーするかを捉え、RLで広く使用されています。我々は、グローバルカバレッジ条件がオフライン対照法が最適ポリシーに収束するために必要かつ十分であることを証明しますが、オンラインRL法には弱い部分的カバレッジ条件で十分であることを示します。この区分は、オフラインの好みデータが十分に多様でない場合、オンラインRL法がオフライン法よりも優れたパフォーマンスを発揮できる理由の一つを説明します。最後に、前述の理論的観察に動機づけられ、対照に基づく好み最適化のためにオフラインデータを使用し、KL正則化のためにオンラインデータを使用するハイブリッドな好み最適化(HyPO)アルゴリズムを導出します。理論的にも実証的にも、HyPOはその純粋なオフライン対応物であるDPOよりも高いパフォーマンスを示しつつ、計算とメモリの効率性を保ちます。
Song et al. (Mon,) がこの問題を研究しました。