What type of study is this?

This is a Quantitative Study study.

September 20, 2025

Máquinas de Recompensa en Tiempo Continuo

Puntos clave

Las máquinas de recompensa en tiempo continuo mejoran el aprendizaje por refuerzo para aplicaciones críticas en tiempo, mejorando la eficiencia del aprendizaje.
Las CTRMs aprovechan la información existente sobre tasas del sistema de la teoría de colas, reduciendo el re-aprendizaje innecesario en los algoritmos clásicos.
Los resultados empíricos muestran que las CTRMs son efectivas en la navegación de entornos de tiempo denso, haciendo que el aprendizaje sea más rápido para los agentes.
El marco integra funciones de recompensa y dinámicas de estado-acción, ofreciendo un enfoque unificado para el aprendizaje por refuerzo.

Resumen

El Aprendizaje por Refuerzo (RL) es un método basado en muestreo para la toma de decisiones secuenciales, en el cual un agente de aprendizaje converge iterativamente hacia una política óptima al aprovechar la retroalimentación del entorno en forma de señales de recompensa escalares. Si bien la información temporal a menudo se abstrae en dominios de tiempo discreto, las aplicaciones de aprendizaje críticas en tiempo—como sistemas de colas, procesos poblacionales y sistemas de manufactura—se modelan naturalmente como Procesos de Decisión de Markov en Tiempo Continuo (CTMDPs). Desde el trabajo seminal de Bradtke y Duff, el RL sin modelo para CTMDPs se ha entendido bien. Sin embargo, en muchas aplicaciones prácticas, los profesionales poseen información de alta calidad sobre las tasas del sistema derivadas de la teoría clásica de colas, que los agentes de aprendizaje podrían explotar potencialmente para acelerar la convergencia. A pesar de esto, los algoritmos clásicos de RL para CTMDPs típicamente vuelven a aprender estos parámetros a través del muestreo. En este trabajo, proponemos máquinas de recompensa en tiempo continuo (CTRMs), un nuevo marco que incorpora funciones de recompensa y dinámicas de estado-acción en tiempo real en una estructura unificada. Las CTRMs permiten a los agentes de RL navegar de manera efectiva en entornos de tiempo denso mientras aprovechan la conformación de recompensas y experiencias contrafactuales para un aprendizaje acelerado. Nuestros resultados empíricos demuestran la capacidad de las CTRMs para mejorar la eficiencia del aprendizaje en entornos críticos en tiempo.

Me gusta

Guardar

Me gusta

Guardar

Máquinas de Recompensa en Tiempo Continuo

Puntos clave

Resumen

Cite This Study