Les récents progrès des modèles texte-en-image, tels que Stable Diffusion, ont démontré leur capacité à synthétiser des images visuelles à partir d'invites en langage naturel. Une approche de personnalisation des modèles texte-en-image, exemplifiée par DreamBooth, affine le modèle pré-entraîné en associant des identifiants textuels uniques avec quelques images d'un sujet spécifique. Bien que les méthodes d'affinage existantes aient montré leur compétence à rendre des images selon les styles de peintres célèbres, il reste difficile d'apprendre à produire des images encapsulant des styles artistiques distincts en raison des perceptions visuelles abstraites et larges des attributs stylistiques tels que les lignes, formes, textures et couleurs. Dans cet article, nous introduisons une nouvelle méthode, Single-StyleForge, pour la personnalisation. Elle affine les modèles de diffusion texte-en-image pré-entraînés afin de générer des images diversifiées dans des styles spécifiés à partir d'invites textuelles. En utilisant environ 15-20 images du style cible, l'approche établit une liaison fondamentale d'un identifiant de jeton unique avec une large gamme du style cible. Elle utilise également des images auxiliaires pour renforcer cette liaison, offrant ainsi une orientation spécifique sur la représentation d'éléments tels que les personnes de manière cohérente avec le style cible. De plus, nous présentons des moyens d'améliorer la qualité du style et de l'alignement texte-image via une méthode appelée Multi-StyleForge, qui hérite de la stratégie utilisée dans StyleForge et apprend plusieurs jetons simultanément. Une évaluation expérimentale menée sur six styles artistiques distincts démontre des améliorations substantielles tant dans la qualité des images générées que dans les métriques de fidélité perceptuelle, telles que FID, KID et scores CLIP.
Park et al. (Lun,) ont étudié cette question.