April 8, 2024Open Access

Synthèse Texte-en-Image pour Tous Styles Artistiques : Progrès dans la Génération Artistique Personnalisée via Subdivision et Double Liaison

Key Points

Les images générées affichent des améliorations substantielles en termes de qualité et de cohérence stylistique, répondant directement à des styles artistiques uniques.
Les métriques clés évaluées incluent les scores FID, KID et CLIP, indiquant une fidélité perceptuelle améliorée à travers différents styles artistiques.
Une méthode nouvelle, Single-StyleForge, affine les modèles de diffusion avec un identifiant de jeton unique pour une meilleure représentation artistique, utilisant environ 15-20 images pour l'entraînement et liant les images à des jetons uniques afin d'améliorer la qualité et la pertinence pour les utilisateurs intéressés par les styles artistiques personnalisés et les interprétations de ces styles artistiques dans divers contextes et œuvres d'art issus de mouvements historiques bien établis dans les beaux-arts et la créativité numérique - le potentiel pour un riche récit numérique créatif est vaste et de plus en plus essentiel dans les espaces numériques d'aujourd'hui et les explorations artistiques à travers divers formats et styles médiatiques tout en conservant les caractéristiques fondamentales des formes d'art originales. Les approches actuelles sont susceptibles de bénéficier d'affinements et d'itérations supplémentaires pour exploiter pleinement les technologies émergentes dans le paysage du design génératif.

Abstract

Les récents progrès des modèles texte-en-image, tels que Stable Diffusion, ont démontré leur capacité à synthétiser des images visuelles à partir d'invites en langage naturel. Une approche de personnalisation des modèles texte-en-image, exemplifiée par DreamBooth, affine le modèle pré-entraîné en associant des identifiants textuels uniques avec quelques images d'un sujet spécifique. Bien que les méthodes d'affinage existantes aient montré leur compétence à rendre des images selon les styles de peintres célèbres, il reste difficile d'apprendre à produire des images encapsulant des styles artistiques distincts en raison des perceptions visuelles abstraites et larges des attributs stylistiques tels que les lignes, formes, textures et couleurs. Dans cet article, nous introduisons une nouvelle méthode, Single-StyleForge, pour la personnalisation. Elle affine les modèles de diffusion texte-en-image pré-entraînés afin de générer des images diversifiées dans des styles spécifiés à partir d'invites textuelles. En utilisant environ 15-20 images du style cible, l'approche établit une liaison fondamentale d'un identifiant de jeton unique avec une large gamme du style cible. Elle utilise également des images auxiliaires pour renforcer cette liaison, offrant ainsi une orientation spécifique sur la représentation d'éléments tels que les personnes de manière cohérente avec le style cible. De plus, nous présentons des moyens d'améliorer la qualité du style et de l'alignement texte-image via une méthode appelée Multi-StyleForge, qui hérite de la stratégie utilisée dans StyleForge et apprend plusieurs jetons simultanément. Une évaluation expérimentale menée sur six styles artistiques distincts démontre des améliorations substantielles tant dans la qualité des images générées que dans les métriques de fidélité perceptuelle, telles que FID, KID et scores CLIP.

Synthèse Texte-en-Image pour Tous Styles Artistiques : Progrès dans la Génération Artistique Personnalisée via Subdivision et Double Liaison

Key Points

Abstract

Cite This Study