El Aprendizaje por Refuerzo (RL) es un método basado en muestreo para la toma de decisiones secuenciales, en el cual un agente de aprendizaje converge iterativamente hacia una política óptima al aprovechar la retroalimentación del entorno en forma de señales de recompensa escalares. Si bien la información temporal a menudo se abstrae en dominios de tiempo discreto, las aplicaciones de aprendizaje críticas en tiempo—como sistemas de colas, procesos poblacionales y sistemas de manufactura—se modelan naturalmente como Procesos de Decisión de Markov en Tiempo Continuo (CTMDPs). Desde el trabajo seminal de Bradtke y Duff, el RL sin modelo para CTMDPs se ha entendido bien. Sin embargo, en muchas aplicaciones prácticas, los profesionales poseen información de alta calidad sobre las tasas del sistema derivadas de la teoría clásica de colas, que los agentes de aprendizaje podrían explotar potencialmente para acelerar la convergencia. A pesar de esto, los algoritmos clásicos de RL para CTMDPs típicamente vuelven a aprender estos parámetros a través del muestreo. En este trabajo, proponemos máquinas de recompensa en tiempo continuo (CTRMs), un nuevo marco que incorpora funciones de recompensa y dinámicas de estado-acción en tiempo real en una estructura unificada. Las CTRMs permiten a los agentes de RL navegar de manera efectiva en entornos de tiempo denso mientras aprovechan la conformación de recompensas y experiencias contrafactuales para un aprendizaje acelerado. Nuestros resultados empíricos demuestran la capacidad de las CTRMs para mejorar la eficiencia del aprendizaje en entornos críticos en tiempo.
Falah et al. (Mon,) estudiaron esta cuestión.