June 13, 2024Open Access

EMMA : Votre modèle de diffusion texte-à-image peut secrètement accepter des instructions multi-modales.

Key Points

Key points are not available for this paper at this time.

Abstract

Les avancées récentes en génération d'images ont permis la création d'images de haute qualité à partir de conditions textuelles. Cependant, face à des conditions multi-modales, telles que du texte combiné à des apparences de référence, les méthodes existantes peinent à équilibrer efficacement plusieurs conditions, montrant généralement une préférence pour une modalité par rapport aux autres. Pour relever ce défi, nous introduisons EMMA, un nouveau modèle de génération d'images acceptant des instructions multi-modales, construit sur le modèle de diffusion texte-à-image (T2I) à la pointe de la technologie, ELLA. EMMA intègre parfaitement des modalités supplémentaires avec le texte pour guider la génération d'images grâce à un design innovant de Connecteur de Caractéristiques Multi-modales, qui intègre efficacement les informations textuelles et modalitaires complémentaires en utilisant un mécanisme d'attention spécial. En congelant tous les paramètres du modèle de diffusion T2I original et en n'ajustant que quelques couches supplémentaires, nous révélons une constatation intéressante selon laquelle le modèle de diffusion T2I pré-entraîné peut secrètement accepter des instructions multi-modales. Cette propriété intéressante facilite l'adaptation facile à différents frameworks existants, faisant d'EMMA un outil flexible et efficace pour produire des images et même des vidéos personnalisées et conscientes du contexte. De plus, nous introduisons une stratégie pour assembler des modules EMMA appris afin de produire des images conditionnées par plusieurs modalités simultanément, éliminant le besoin d'une formation supplémentaire avec des instructions multi-modales mixtes. D'importantes expériences démontrent l'efficacité d'EMMA à maintenir une haute fidélité et détail dans les images générées, mettant en avant son potentiel en tant que solution robuste pour des tâches avancées de génération d'images conditionnelles multi-modales.

EMMA : Votre modèle de diffusion texte-à-image peut secrètement accepter des instructions multi-modales.

Key Points

Abstract

Cite This Study

Also Consider

Also Consider