Key points are not available for this paper at this time.
Cet article traite du problème d'apprentissage d'une politique stochastique pour un objet (comme un graphe moléculaire) à partir d'une séquence d'actions, telle que la probabilité de générer un objet est proportionnelle à une récompense donnée pour cet objet. Alors que la maximisation standard du retour tend vers une seule séquence maximisant le retour, il existe des cas où nous souhaitons échantillonner un ensemble divers de solutions à fort retour. Ceux-ci se présentent, par exemple, dans l'optimisation de fonctions en boîte noire lorsque peu de tours sont possibles, chaque grand lot de requêtes, où les lots doivent être divers, par exemple, dans la conception de nouvelles molécules. On peut également considérer cela comme un problème de conversion d'une fonction d'énergie en une distribution générative. Bien que les méthodes puissent y parvenir, elles sont coûteuses et ne réalisent généralement qu'une exploration. Au lieu de cela, entraîner une politique générative amortit le coût pendant l'entraînement et permet une génération rapide. En utilisant des idées de l'apprentissage par différence, nous proposons GFlowNet, basé sur une vue du processus comme un réseau flow, rendant possible la gestion des situations délicates où différentes trajectoires peuvent conduire au même état final, par exemple, il y a plusieurs manières d'ajouter des atomes séquentiellement pour générer un graphe moléculaire. Nous considérons l'ensemble des trajectoires comme un flux et convertissons la cohérence du flux en un objectif d'apprentissage, semblable à la transformation de la méthode de Bellman en méthodes de différence temporelle. Nous prouvons que tout minimum global des objectifs proposés produit une politique qui échantillonne à partir du désiré, et démontrons l'amélioration des performances et de la diversité sur un domaine simple où il y a de nombreux modes pour la fonction de récompense, lors d'une tâche de synthèse de molécules.
Bengio et al. (mar,) ont étudié cette question.