March 24, 2024Open Access

Kompositionelle Text-zu-Bild-Synthese mit Kontrolle der Aufmerksamkeitskarten von Diffusionsmodellen

Key Points

Key points are not available for this paper at this time.

Abstract

Aktuelle Text-zu-Bild (T2I) Diffusionsmodelle zeigen eine herausragende Leistung bei der Generierung von qualitativ hochwertigen Bildern, die auf textuellen Eingaben basieren. Sie scheitern jedoch daran, die erzeugten Bilder semantisch mit den Eingaben in Einklang zu bringen, aufgrund ihrer begrenzten kompositorischen Fähigkeiten, was zu Attribut-, Entitätsund fehlenden Entitäten führt. In diesem Papier schlagen wir eine neuartige Strategie zur Kontrolle der Aufmerksamkeitsmaske vor, die auf vorhergesagten Objektrahmen basiert, um diese Probleme anzugehen. Insbesondere trainieren wir zunächst ein BoxNet, um einen Rahmen für jede Entität vorherzusagen, die das im Prompt spezifizierte Attribut besitzt. Je nach den vorhergesagten Rahmen wird dann eine eindeutige Maskenkontrolle auf die Cross- und Self-Attention-Karten angewendet. Unser Ansatz ermöglicht eine semantisch genauere Synthese, indem die Aufmerksamkeitsregionen jedes Tokens im Prompt auf das Bild beschränkt werden. Darüber hinaus ist die vorgeschlagene Methode einfach und effektiv und kann problemlos in bestehende T2I-Generatoren auf Basis von Cross-Attention integriert werden. Wir vergleichen unseren Ansatz mit konkurrierenden Methoden und demonstrieren, dass er die Semantik des ursprünglichen Textes treu in den generierten Inhalten vermitteln kann und eine hohe Verfügbarkeit als sofort einsatzfähiges Plugin erreicht. Bitte verweisen Sie auf https://github.com/OPPO-Mente-Lab/attention-mask-control.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper