強化学習(RL)において、エージェントは環境と継続的に相互作用し、フィードバックを使用して行動を洗練させます。ポリシー最適化を導くために、報酬モデルが目標の代理として導入され、エージェントが蓄積した報酬を最大化すると同時に、タスクデザイナーの意図も満たすことができます。最近、真の目標と密接に整合し、ポリシー最適化を促進する報酬モデルの開発に、学術および産業研究者の両方から大きな関心が寄せられています。本調査では、RL文献における報酬モデリング技術の包括的なレビューを提供します。まず、報酬モデリングの背景と前提を概説します。次に、最近の報酬モデリングアプローチの概要を示し、ソース、メカニズム、報酬学習パラダイムに基づいて分類します。この理解を基に、これらの報酬モデリング技術のさまざまな応用について議論し、報酬モデルの評価方法をレビューします。最後に、報酬モデリングにおける有望な研究方向を強調して結論をまとめます。総じて、この調査には、確立された手法と新興手法の両方が含まれており、現在の文献における報酬モデルの体系的なレビューの空白を埋めるものです。
Yu et al. (Mon,) はこの質問を研究しました。