Los puntos clave no están disponibles para este artículo en este momento.
Este artículo trata sobre el problema de aprender una política estocástica para un objeto (como un gráfico molecular) a partir de una secuencia de acciones, de tal manera que la probabilidad de generar un objeto sea proporcional a una recompensa dada para ese objeto. Mientras que la maximización del retorno estándar tiende a una única secuencia que maximiza el retorno, hay casos en los que quisiéramos muestrear un conjunto diverso de soluciones de alto retorno. Estos surgen, por ejemplo, en la optimización de funciones de caja negra cuando se pueden realizar pocas rondas, cada una con grandes lotes de consultas, donde los lotes deben ser diversos, por ejemplo, en el diseño de nuevas moléculas. También se puede ver esto como un problema de convertir una función de energía en una distribución generativa. Si bien los métodos pueden lograr eso, son costosos y generalmente solo realizan exploración. En cambio, entrenar una política generativa amortigua el costo durante el entrenamiento y permite una generación rápida. Usando ideas del aprendizaje por diferencia, proponemos GFlowNet, basado en una visión del proceso como una red de flujo, lo que hace posible manejar el difícil caso donde diferentes trayectorias pueden llevar al mismo estado final, por ejemplo, hay muchas maneras de añadir átomos secuencialmente para generar un gráfico molecular. Vemos el conjunto de trayectorias como un flujo y convertimos la consistencia del flujo en un objetivo de aprendizaje, similar a la casting del Bellman en métodos de Diferencia Temporal. Probamos que cualquier mínimo global de los objetivos propuestos produce una política que muestrea del deseado, y demostramos el mejor rendimiento y diversidad en un dominio simple donde hay muchos modos en la función de recompensa, en una tarea de síntesis de moléculas.
Bengio et al. (Martes,) estudiaron esta cuestión.