What type of study is this?

This is a Literature Review study.

September 20, 2025

深層強化学習における報酬モデル：調査

Key Points

報酬モデルは強化学習におけるポリシー最適化を向上させ、望ましい目標との整合性を確保します。
この調査は、報酬モデリング技術をソース、メカニズム、学習パラダイムに基づいて分類します。
これらの報酬モデルの応用はさまざまなタスクに広がり、強化学習の分野における重要性を示しています。
報酬モデルの体系的な評価を確立することは、この分野における研究方向を進展させるために不可欠です。

Abstract

強化学習（RL）において、エージェントは環境と継続的に相互作用し、フィードバックを使用して行動を洗練させます。ポリシー最適化を導くために、報酬モデルが目標の代理として導入され、エージェントが蓄積した報酬を最大化すると同時に、タスクデザイナーの意図も満たすことができます。最近、真の目標と密接に整合し、ポリシー最適化を促進する報酬モデルの開発に、学術および産業研究者の両方から大きな関心が寄せられています。本調査では、RL文献における報酬モデリング技術の包括的なレビューを提供します。まず、報酬モデリングの背景と前提を概説します。次に、最近の報酬モデリングアプローチの概要を示し、ソース、メカニズム、報酬学習パラダイムに基づいて分類します。この理解を基に、これらの報酬モデリング技術のさまざまな応用について議論し、報酬モデルの評価方法をレビューします。最後に、報酬モデリングにおける有望な研究方向を強調して結論をまとめます。総じて、この調査には、確立された手法と新興手法の両方が含まれており、現在の文献における報酬モデルの体系的なレビューの空白を埋めるものです。

Bookmark

深層強化学習における報酬モデル：調査

Key Points

Abstract

Cite This Study