Key points are not available for this paper at this time.
報酬の微調整は、基盤モデルを下流の目的に合わせるための有望なアプローチとして浮上しています。強化学習(RL)を用いて、人間の好みを反映した報酬を最大化することにより、言語領域で著しい成功が収められています。しかし、視覚領域においては、既存のRLに基づく報酬の微調整手法は、大規模なトレーニングにおける不安定性に制限されており、複雑で未見のプロンプトへの一般化ができません。本論文では、Proximal Reward Difference Prediction(PRDP)を提案し、100K以上のプロンプトを持つ大規模プロンプトデータセットにおいて、拡散モデルのための安定したブラックボックス報酬微調整を初めて可能にします。私たちの重要な革新は、RL目的と同じ最適解を持ちながら、より良いトレーニングの安定性を享受する報酬差分予測(RDP)目的です。具体的には、RDP目的は、生成された画像ペアの報酬差分をそのデノイジング軌跡から予測することを拡散モデルに課す監視回帰目的です。報酬差分予測を完璧に行う拡散モデルは、正確にRL目的の最大化者であることを理論的に証明します。さらに、RDP目的を安定して最適化するための近接更新を用いるオンラインアルゴリズムを開発します。実験では、PRDPが小規模トレーニングにおいて確立されたRLベースの方法の報酬最大化能力に匹敵することを示します。さらに、Human Preference Dataset v2およびPick-a-Pic v1データセットのテキストプロンプトに対する大規模トレーニングを通じて、PRDPは多様なセットの複雑で未見のプロンプトに対して優れた生成品質を達成し、RLベースの手法は完全に失敗します。
Deng et al. (Tue, ) はこの問題を研究しました。