Los puntos clave no están disponibles para este artículo en este momento.
Proponemos un marco integral para métodos de gradiente de política adaptados al aprendizaje por refuerzo en tiempo continuo. Esto se basa en la conexión entre problemas de control estocásticos y problemas aleatorizados, lo que permite aplicaciones en varias clases de problemas de control en tiempo continuo markoviano, más allá de los modelos de difusión, incluyendo, por ejemplo, problemas regulares, de impulso y de detención/cambio óptimo. Al utilizar un cambio de medida en la técnica de aleatorización de control, derivamos una nueva representación de gradiente de política para estos problemas aleatorizados, con políticas de intensidad parametrizadas. Además, desarrollamos algoritmos actor-crítico diseñados específicamente para abordar problemas generales de control estocástico markoviano. Nuestro marco se demuestra a través de su aplicación a problemas de conmutación óptima, con dos estudios de caso numéricos en el sector energético que se centran en opciones reales.
Denkert et al. (Sat,) estudiaron esta cuestión.