Los puntos clave no están disponibles para este artículo en este momento.
En este artículo presentamos los resultados de estabilidad y convergencia para el aprendizaje por refuerzo basado en programación dinámica aplicado a la regulación cuadrática lineal (LQR). El algoritmo específico que analizamos se basa en Q-learning y se ha demostrado que converge a un controlador óptimo, siempre que el sistema subyacente sea controlable y un vector de señal particular esté persistentemente excitado. Este es el primer resultado de convergencia para algoritmos de aprendizaje por refuerzo basados en programación dinámica para un problema continuo.
Bradtke et al. (Wed,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: