Key points are not available for this paper at this time.
Ces dernières années, les progrès des modèles de diffusion texte-image (T2I) ont considérablement amélioré la qualité des images générées. Cependant, obtenir un contrôle précis des attributs reste un défi en raison des limites des invites en langage naturel (comme l'absence d'un ensemble continu de descriptions intermédiaires entre « personne » et « personne âgée »). Bien que de nombreuses méthodes aient été introduites pour augmenter le modèle ou le processus de génération afin de permettre un tel contrôle, les méthodes ne nécessitant pas d'image de référence fixe se limitent soit à un contrôle global fin de l'expression des attributs, soit à un contrôle grossier localisé des attributs sur des sujets spécifiques, mais pas les deux simultanément. Nous montrons qu'il existe des directions dans les embeddings textuels CLIP de niveau token couramment utilisés qui permettent un contrôle fin et spécifique au sujet des attributs de haut niveau dans les modèles texte-image. Sur cette base, nous introduisons une méthode efficace sans optimisation et une méthode robuste basée sur l'optimisation pour identifier ces directions pour des attributs spécifiques à partir d'invites textuelles contrastives. Nous démontrons que ces directions peuvent être utilisées pour enrichir le texte de l'invite avec un contrôle fin des attributs de sujets spécifiques de manière compositionnelle (contrôle de plusieurs attributs d'un sujet unique) sans avoir à adapter le modèle de diffusion. Page du projet : https://compvis.github.io/attribute-control. Le code est disponible sur https://github.com/CompVis/attribute-control.
Baumann et al. (Mon,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: