Jüngste Fortschritte in den Diffusionsmodellen für Text-zu-Bild (T2I) haben bemerkenswerte Fähigkeiten bei der Generierung hochgradig treuer Bilder gezeigt. Allerdings haben diese Modelle häufig Schwierigkeiten, komplexe Benutzeranfragen treu umzusetzen, insbesondere in Aspekten wie Attributbindung, Negation und kompositorischen Beziehungen. Dies führt zu einer erheblichen Diskrepanz zwischen der Benutzerabsicht und dem generierten Ergebnis. Um diese Herausforderung zu bewältigen, stellen wir PromptEnhancer vor, einen neuartigen und universellen Ansatz zur Umformulierung von Prompts, der jedes vortrainierte T2I-Modell verbessert, ohne Änderungen an seinen Gewichten vorzunehmen. Im Gegensatz zu früheren Methoden, die auf modell-spezifische Feinabstimmung oder implizite Belohnungssignale wie Bildbelohnungspunkte angewiesen sind, entkoppelt unser Framework den Umformulierer vom Generator. Wir erreichen dies, indem wir einen Chain-of-Thought (CoT) Umformulierer durch Verstärkungslernen trainieren, geleitet von einem speziellen Belohnungsmodell, das wir AlignEvaluator nennen. Der AlignEvaluator wird trainiert, um explizites und detailliertes Feedback basierend auf einer systematischen Taxonomie von 24 Schlüsselpunkten zu geben, die aus einer umfassenden Analyse häufiger T2I-Fehlermuster abgeleitet wurden. Durch die Optimierung des CoT-Umformulierers, um die Belohnung unseres AlignEvaluators zu maximieren, lernt unser Framework, Prompts zu generieren, die von T2I-Modellen präziser interpretiert werden. Ausführliche Experimente mit dem HunyuanImage 2.1-Modell zeigen, dass PromptEnhancer die Bild-Text-Ausrichtung über eine Vielzahl von semantischen und kompositorischen Herausforderungen erheblich verbessert. Darüber hinaus führen wir eine neue, hochwertige Benchmark für menschliche Präferenzen ein, um zukünftige Forschungen in diesem Bereich zu erleichtern.
Wang et al. (Thu,) untersuchten diese Frage.