April 27, 2024Open Access

Enfoque de aleatorización de control para gradientes de política y aplicación al aprendizaje por refuerzo en conmutación óptima

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Proponemos un marco integral para métodos de gradiente de política adaptados al aprendizaje por refuerzo en tiempo continuo. Esto se basa en la conexión entre problemas de control estocásticos y problemas aleatorizados, lo que permite aplicaciones en varias clases de problemas de control en tiempo continuo markoviano, más allá de los modelos de difusión, incluyendo, por ejemplo, problemas regulares, de impulso y de detención/cambio óptimo. Al utilizar un cambio de medida en la técnica de aleatorización de control, derivamos una nueva representación de gradiente de política para estos problemas aleatorizados, con políticas de intensidad parametrizadas. Además, desarrollamos algoritmos actor-crítico diseñados específicamente para abordar problemas generales de control estocástico markoviano. Nuestro marco se demuestra a través de su aplicación a problemas de conmutación óptima, con dos estudios de caso numéricos en el sector energético que se centran en opciones reales.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo