Key points are not available for this paper at this time.
Les modèles de diffusion ont démontré leur capacité à synthétiser des images de haute qualité et diverses à partir de prompts textuels. Cependant, le contrôle simultané à la fois des contextes globaux (par exemple, les mises en page et interactions d'objets) et des détails locaux (par exemple, couleurs et émotions) reste un défi majeur. Les modèles échouent souvent à comprendre des descriptions complexes impliquant plusieurs objets et reflètent des attributs visuels spécifiés vers des cibles incorrectes ou les ignorent. Cet article présente Global-Local Diffusion (GLoD), un cadre novateur qui permet un contrôle simultané sur les contextes globaux et les détails locaux dans la génération de texte à image sans nécessiter d'entraînement ou d'ajustement. Il attribue plusieurs prompts globaux et locaux à des couches correspondantes et compose leurs bruits pour guider un processus de débruitage à l'aide de modèles de diffusion pré-entraînés. Notre cadre permet des compositions complexes global-local, conditionnant les objets dans le prompt global avec les prompts locaux tout en préservant d'autres identités non spécifiées. Nos évaluations quantitatives et qualitatives démontrent que GLoD génère efficacement des images complexes qui respectent à la fois les interactions d'objets fournies par l'utilisateur et les détails des objets.
Moyuru Yamada (mar,) a étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: