.Los sistemas de control no lineales con información parcial para el tomador de decisiones son prevalentes en una variedad de aplicaciones. Como un paso hacia el estudio de tales sistemas no lineales, este trabajo explora métodos de aprendizaje por refuerzo para encontrar la política óptima en sistemas de reguladores cuasi lineales-cuadráticos. En particular, consideramos un sistema dinámico que combina componentes lineales y no lineales, y está gobernado por una política con la misma estructura. Suponiendo que el componente no lineal comprende núcleos con pequeños coeficientes de Lipschitz, caracterizamos el paisaje de optimización de la función de costo. Aunque la función de costo es no convexa en general, establecemos la convexidad fuerte local y la suavidad en la vecindad del optimizador global. Además, proponemos un mecanismo de inicialización para aprovechar estas propiedades. Basándonos en los desarrollos, diseñamos un algoritmo de gradiente de política que está garantizado para converger a la política globalmente óptima con una tasa lineal. Palabras clave: regulador cuasi lineal-cuadrático, aprendizaje por refuerzo, métodos de gradiente de política, control estocástico, códigos MSC 68Q25 93E20.
Han et al. (Mon,) estudiaron esta cuestión.