Les modèles de cohérence sont des modèles génératifs prometteurs car ils distillent l'échantillonnage multi-étapes de la diffusion basée sur le score dans un seul passage avant d'un réseau de neurones. Sans accès aux trajectoires d'échantillonnage d'un modèle de diffusion pré-entraîné, l'apprentissage de cohérence repose sur des trajectoires proxy construites sur un couplage indépendant entre les distributions de bruit et de données. Le raffinement de ce couplage est un domaine clé d'amélioration pour le rendre plus adapté à la tâche et réduire le randomisation résultante dans le processus d'apprentissage. Dans ce travail, nous introduisons un nouveau couplage associant les données bruyantes d'entrée à leur sortie générée par le modèle de cohérence lui-même, comme un proxy pour la sortie de flux de diffusion inaccessible. Notre approche économique exploite la capacité inhérente des modèles de cohérence à calculer la carte de transport en une seule étape. Nous fournissons une intuition et des preuves empiriques de la pertinence de notre couplage induit par le générateur (GC), qui rapproche l'apprentissage de cohérence de la distillation de score. Par conséquent, notre méthode non seulement accélère la convergence de l'apprentissage de cohérence de manière significative, mais améliore également la performance résultante. Le code est disponible à : https://github.com/thibautissenhuth/consistencyGC.
Issenhuth et al. (Thu,) ont étudié cette question.