Los puntos clave no están disponibles para este artículo en este momento.
Resumen El aprendizaje por refuerzo (RL) fuera de línea tiene como objetivo aprender políticas completamente a partir de conjuntos de datos colectados pasivamente, convirtiéndolo en un método de decisión basado en datos. Uno de los principales desafíos en RL fuera de línea es el problema del cambio de distribución, que provoca que el algoritmo visite muestras fuera de distribución (OOD). El cambio de distribución se puede mitigar restringiendo la divergencia entre la política objetivo y la política de comportamiento. Sin embargo, este método puede restringir en exceso la política objetivo y afectar el rendimiento del algoritmo, ya que no distingue directamente entre muestras en distribución y OOD. Además, es difícil aprender y representar una política de comportamiento multimodal cuando los conjuntos de datos son recolectados por varias políticas de comportamiento diferentes. Para superar estas desventajas, los autores abordan el problema del cambio de distribución mediante restricciones de política implícitas con modelos basados en energía (EBMs) en lugar de modelar explícitamente la política de comportamiento. El EBM es potente para representar distribuciones complejas multimodales así como la capacidad de distinguir muestras en distribución y OOD. Los resultados experimentales muestran que su método supera significativamente al método de restricción de política explícita y a otras líneas base. Además, el modelo de energía aprendido se puede utilizar para indicar visitas OOD y alertar sobre posibles fallos.
Peng et al. (Vie,) estudiaron esta cuestión.