August 18, 2025Open Access

El Gradiente de Política Converge a la Política Globalmente Óptima para Reguladores Cuasi Lineales-Cuadráticos

Puntos clave

El algoritmo garantiza la convergencia a la política globalmente óptima, apoyando la toma de decisiones efectiva en entornos no lineales.
Los puntos clave incluyen el establecimiento de la convexidad fuerte local y la suavidad cerca del optimizador global, ayudando en la optimización.
El método propuesto aprovecha las propiedades de la función de costo, que es generalmente no convexa pero manejable con las técnicas adecuadas.
Este enfoque hacia el control estocástico destaca aplicaciones potenciales en sistemas dinámicos complejos, abriendo avenidas para futuras investigaciones.

Resumen

.Los sistemas de control no lineales con información parcial para el tomador de decisiones son prevalentes en una variedad de aplicaciones. Como un paso hacia el estudio de tales sistemas no lineales, este trabajo explora métodos de aprendizaje por refuerzo para encontrar la política óptima en sistemas de reguladores cuasi lineales-cuadráticos. En particular, consideramos un sistema dinámico que combina componentes lineales y no lineales, y está gobernado por una política con la misma estructura. Suponiendo que el componente no lineal comprende núcleos con pequeños coeficientes de Lipschitz, caracterizamos el paisaje de optimización de la función de costo. Aunque la función de costo es no convexa en general, establecemos la convexidad fuerte local y la suavidad en la vecindad del optimizador global. Además, proponemos un mecanismo de inicialización para aprovechar estas propiedades. Basándonos en los desarrollos, diseñamos un algoritmo de gradiente de política que está garantizado para converger a la política globalmente óptima con una tasa lineal. Palabras clave: regulador cuasi lineal-cuadrático, aprendizaje por refuerzo, métodos de gradiente de política, control estocástico, códigos MSC 68Q25 93E20.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo