En el aprendizaje por refuerzo (RL), los agentes interactúan continuamente con el entorno y utilizan la retroalimentación para refinar su comportamiento. Para guiar la optimización de la política, se introducen modelos de recompensa como proxies de los objetivos deseados, de tal manera que cuando el agente maximiza la recompensa acumulada, también cumple las intenciones del diseñador de la tarea. Recientemente, una atención significativa por parte de investigadores académicos e industriales se ha centrado en desarrollar modelos de recompensa que no solo se alineen estrechamente con los verdaderos objetivos, sino que también faciliten la optimización de la política. En esta encuesta, proporcionamos una revisión exhaustiva de las técnicas de modelado de recompensa dentro de la literatura de RL. Comenzamos esbozando el contexto y los preliminares en el modelado de recompensa. A continuación, presentamos una visión general de los enfoques recientes de modelado de recompensa, categorizándolos según la fuente, el mecanismo y el paradigma de aprendizaje de recompensa. Basándonos en esta comprensión, discutimos diversas aplicaciones de estas técnicas de modelado de recompensa y revisamos métodos para evaluar modelos de recompensa. Finalmente, concluimos destacando direcciones de investigación prometedoras en el modelado de recompensa. En conjunto, esta encuesta incluye tanto métodos establecidos como emergentes, llenando el vacío de una revisión sistemática de modelos de recompensa en la literatura actual.
Yu et al. (Mon,) estudiaron esta cuestión.