Los puntos clave no están disponibles para este artículo en este momento.
El objetivo del Aprendizaje por Refuerzo (RL) en aplicaciones del mundo real es crear sistemas capaces de tomar decisiones autónomas aprendiendo de su entorno a través de la prueba y error. Este artículo enfatiza la importancia de la ingeniería de recompensas y el modelado de recompensas para mejorar la eficiencia y efectividad de los algoritmos de aprendizaje por refuerzo. La ingeniería de recompensas implica diseñar funciones de recompensa que reflejen con precisión los resultados deseados, mientras que el modelado de recompensas proporciona retroalimentación adicional para guiar el proceso de aprendizaje, acelerando la convergencia hacia políticas óptimas. A pesar de los avances significativos en el aprendizaje por refuerzo, persisten varias limitaciones. Un desafío clave es la naturaleza escasa y retrasada de las recompensas en muchos escenarios del mundo real, lo que puede obstaculizar el progreso del aprendizaje. Además, la complejidad de modelar con precisión los entornos del mundo real y las demandas computacionales de los algoritmos de aprendizaje por refuerzo siguen siendo obstáculos sustanciales. Por otro lado, los avances recientes en aprendizaje profundo y redes neuronales han mejorado significativamente la capacidad de los sistemas de aprendizaje por refuerzo para manejar espacios de estado y acción de alta dimensión, lo que permite su aplicación a tareas complejas como la robótica, la conducción autónoma y los juegos. Este artículo proporciona una revisión integral del estado actual del aprendizaje por refuerzo, centrándose en las metodologías y técnicas utilizadas en la ingeniería de recompensas y el modelado de recompensas. Analiza críticamente las limitaciones y los avances recientes en el campo, ofreciendo información sobre futuras direcciones de investigación y aplicaciones potenciales en varios dominios.
Ibrahim et al. (Mon,) estudiaron esta cuestión.