La Guidance sans Classificateur (CFG) est une technique largement utilisée dans les modèles de diffusion modernes pour améliorer la qualité des échantillons et l'adhésion aux consignes. Cependant, à travers une analyse empirique sur la modélisation par mélange gaussien avec une solution analytique, nous observons un écart entre les résultats sous-optimaux produits par la CFG et la vérité de terrain. La dépendance excessive du modèle à ces prédictions sous-optimales conduit souvent à une incohérence sémantique et à des sorties de faible qualité. Pour remédier à ce problème, nous démontrons d'abord de manière empirique que les prédictions sous-optimales du modèle peuvent être efficacement affinées en utilisant des sous-réseaux du modèle lui-même. En nous basant sur cette idée, nous proposons S²-Guidance, une méthode novatrice qui exploite le blocage stochastique pendant le processus direct pour construire des sous-réseaux stochastiques, guidant ainsi le modèle loin des prédictions potentiellement de faible qualité et vers des sorties de haute qualité. D'importantes expériences qualitatives et quantitatives sur des tâches de génération de texte à image et de texte à vidéo démontrent que S²-Guidance offre des performances supérieures, surpassant de manière constante la CFG et d'autres stratégies avancées de guidance. Notre code sera publié.
Chen et al. (Mon,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: