August 24, 2005

Control cuadrático lineal adaptativo utilizando iteración de políticas

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

En este artículo presentamos los resultados de estabilidad y convergencia para el aprendizaje por refuerzo basado en programación dinámica aplicado a la regulación cuadrática lineal (LQR). El algoritmo específico que analizamos se basa en Q-learning y se ha demostrado que converge a un controlador óptimo, siempre que el sistema subyacente sea controlable y un vector de señal particular esté persistentemente excitado. Este es el primer resultado de convergencia para algoritmos de aprendizaje por refuerzo basados en programación dinámica para un problema continuo.

Control cuadrático lineal adaptativo utilizando iteración de políticas

Puntos clave

Resumen

Cite This Study

Also Consider

Also Consider