June 14, 2018Open Access

Optimización de Políticas Máxima a Posteriori

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Presentamos un nuevo algoritmo para el aprendizaje por refuerzo llamado Optimización de Políticas Máxima a Posteriori (MPO) basado en ascenso de coordenadas en un objetivo de entropía relativa. Mostramos que varios métodos existentes pueden relacionarse directamente con nuestra derivación. Desarrollamos dos algoritmos off-policy y demostramos que son competitivos con el estado del arte en aprendizaje por refuerzo profundo. En particular, para control continuo, nuestro método supera a los métodos existentes en eficiencia de muestra, convergencia prematura y robustez ante configuraciones de hiperparámetros, mientras logra un rendimiento final similar o mejor.

Me gusta

Guardar

Ver artículo completo