Key points are not available for this paper at this time.
Les axes principaux d'intérêt dans les modèles de diffusion générant des images sont la qualité de l'image, la quantité de variation dans les résultats, et à quel point les résultats s'alignent avec une condition donnée, par exemple, une étiquette de classe ou une invite textuelle. L'approche populaire de guidage sans classificateur utilise un modèle inconditionnel pour guider un modèle conditionnel, menant à une meilleure alignement des invites et à des images de plus haute qualité, mais au prix d'une réduction de la variation. Ces effets semblent intrinsèquement entremêlés, et donc difficiles à contrôler. Nous faisons l'observation surprenante qu'il est possible d'obtenir un contrôle désentrelacé sur la qualité de l'image sans compromettre la quantité de variation en guidant la génération à l'aide d'une version plus petite et moins entraînée du modèle lui-même plutôt qu'un modèle inconditionnel. Cela conduit à des améliorations significatives dans la génération d'ImageNet, établissant des FID records de 1.01 pour 64x64 et 1.25 pour 512x512, en utilisant des réseaux disponibles publiquement. De plus, la méthode est également applicable aux modèles de diffusion inconditionnels, améliorant considérablement leur qualité.
Karras et al. (Tue,) ont étudié cette question.