What type of study is this?

This is a Literature Review study.

September 20, 2025

Modelos de recompensa en el aprendizaje por refuerzo: una encuesta

Puntos clave

Los modelos de recompensa mejoran la optimización de políticas en el aprendizaje por refuerzo, asegurando la alineación con los objetivos deseados.
Esta encuesta categoriza las técnicas de modelado de recompensa según la fuente, el mecanismo y los paradigmas de aprendizaje.
Las aplicaciones de estos modelos de recompensa abarcan diversas tareas, demostrando su importancia en el panorama del aprendizaje por refuerzo.
Establecer evaluaciones sistemáticas de los modelos de recompensa es esencial para avanzar en las direcciones de investigación en este campo.

Resumen

En el aprendizaje por refuerzo (RL), los agentes interactúan continuamente con el entorno y utilizan la retroalimentación para refinar su comportamiento. Para guiar la optimización de la política, se introducen modelos de recompensa como proxies de los objetivos deseados, de tal manera que cuando el agente maximiza la recompensa acumulada, también cumple las intenciones del diseñador de la tarea. Recientemente, una atención significativa por parte de investigadores académicos e industriales se ha centrado en desarrollar modelos de recompensa que no solo se alineen estrechamente con los verdaderos objetivos, sino que también faciliten la optimización de la política. En esta encuesta, proporcionamos una revisión exhaustiva de las técnicas de modelado de recompensa dentro de la literatura de RL. Comenzamos esbozando el contexto y los preliminares en el modelado de recompensa. A continuación, presentamos una visión general de los enfoques recientes de modelado de recompensa, categorizándolos según la fuente, el mecanismo y el paradigma de aprendizaje de recompensa. Basándonos en esta comprensión, discutimos diversas aplicaciones de estas técnicas de modelado de recompensa y revisamos métodos para evaluar modelos de recompensa. Finalmente, concluimos destacando direcciones de investigación prometedoras en el modelado de recompensa. En conjunto, esta encuesta incluye tanto métodos establecidos como emergentes, llenando el vacío de una revisión sistemática de modelos de recompensa en la literatura actual.

Me gusta

Guardar

Me gusta

Guardar

Modelos de recompensa en el aprendizaje por refuerzo: una encuesta

Puntos clave

Resumen

Cite This Study