Los puntos clave no están disponibles para este artículo en este momento.
La optimización de políticas basada en modelos offline busca optimizar una función objetivo suplantadora aprendida sin consultar el verdadero objetivo oráculo durante la optimización. Sin embargo, se encuentran con frecuencia predicciones inexactas del modelo suplantador a lo largo de la trayectoria de optimización. Para abordar esta limitación, proponemos la optimización bayesiana generativa adversaria (GABO) utilizando regularización adaptativa del crítico de fuente, un marco independiente de tareas para la optimización bayesiana que emplea un modelo crítico de fuente acotado en Lipschitz para restringir la trayectoria de optimización a regiones donde la función suplantadora es confiable. Mostramos que bajo ciertas suposiciones para el espacio de entrada continuo previo, nuestro algoritmo ajusta dinámicamente la fuerza de la regularización del crítico de fuente. GABO supera a las líneas base existentes en una variedad de tareas de optimización offline en diversos dominios científicos. Nuestro código está disponible en https://github.com/michael-s-yao/gabo.
Yao et al. (Fri,) estudiaron esta cuestión.