Key points are not available for this paper at this time.
過去の大規模言語モデルは通常、人間のフィードバックを用いた強化学習(RLHF)の何らかの形態に依存して、モデルの応答を人間の嗜好により良く整合させてきました。しかし、これらのRLHFパイプラインを実装する際に頻繁に観察される不安定性のために、最近ではRL報酬モデルを別途学習する必要を回避するための様々な再パラメータ化技術が導入されています。代わりに、一つの閉形式のトレーニング目的関数の最小化によって人間の嗜好に直接ファインチューニングを行う手法があり、これは元々直接的嗜好最適化(DPO)と呼ばれ、その後いくつかの注目すべき派生手法が続きました。特定の実世界の状況では有効ですが、既存のDPO手法が事前学習済みの参照モデルと人間の嗜好の経験的測定値との間を補間する能力に未解決の欠点、および低品質と高品質な応答が正則化される方法や制約の扱いにおける不可避のトレードオフが存在することを明らかにする新しい評価基準を紹介します。これらの知見に基づき、これらの制限を証明的に緩和する代替のDPO様損失関数を提案します。実証的な結果は我々の解析の注目すべき側面を裏付けます。
Huら(Fri,)はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: