Los puntos clave no están disponibles para este artículo en este momento.
Presentamos un nuevo algoritmo para el aprendizaje por refuerzo llamado Optimización de Políticas Máxima a Posteriori (MPO) basado en ascenso de coordenadas en un objetivo de entropía relativa. Mostramos que varios métodos existentes pueden relacionarse directamente con nuestra derivación. Desarrollamos dos algoritmos off-policy y demostramos que son competitivos con el estado del arte en aprendizaje por refuerzo profundo. En particular, para control continuo, nuestro método supera a los métodos existentes en eficiencia de muestra, convergencia prematura y robustez ante configuraciones de hiperparámetros, mientras logra un rendimiento final similar o mejor.
Abdolmaleki et al. (Jue,) estudiaron esta cuestión.