Key points are not available for this paper at this time.
人間のフィードバックからの強化学習においては、人間の好みを予測するように訓練された報酬モデルに基づいて最適化することが一般的です。報酬モデルは不完全な代理指標であるため、その値を過度に最適化すると、グッドハートの法則に従い実際の性能が低下することがあります。この現象は頻繁に観察されていますが、人間の好みデータの収集コストのために詳細に測定されることは少なかったのです。本研究では、固定された「金基準」報酬モデルが人間の役割を果たし、代理報酬モデルの訓練に使用されるラベルを提供する合成設定を用います。強化学習またはbest-of-nサンプリングのいずれかの方法で代理報酬モデルに対して最適化を行う際に、金報酬モデルのスコアがどのように変化するかを検証しました。この関係は最適化の手法によって異なる関数形を示し、両者において報酬モデルのパラメータ数につれて係数が滑らかにスケールすることがわかりました。また、報酬モデルのデータセットのサイズ、報酬モデルおよび方策のパラメータ数、強化学習設定で報酬に加えられるKLペナルティの係数がこの関係に与える影響も調査しました。これらの実証結果がAIアラインメントに関する理論的考察に与える示唆についても検討しています。
Gaoら(Wed,)がこの問題を研究しました。