What type of study is this?

This is a Quantitative Study study.

October 3, 2025Open Access

PromptEnhancer: Ein einfacher Ansatz zur Verbesserung von Text-zu-Bild-Modellen durch Umformulierung von Chain-of-Thought-Prompts

Key Points

PromptEnhancer verbessert erheblich die Bild-Text-Ausrichtung in Text-zu-Bild-Modellen und adressiert die Benutzerabsicht.
Der AlignEvaluator bietet explizites Feedback basierend auf 24 Schlüsselpunkten und verbessert die Genauigkeit der Prompts.
Verstärkungslernen trainiert den CoT-Umformulierer effektiv, entkoppelt von den Gewichten des T2I-Modells.
Experimente mit HunyuanImage 2.1 zeigen verbesserte Leistungen über eine Vielzahl komplexer Prompt-Szenarien.

Abstract

Jüngste Fortschritte in den Diffusionsmodellen für Text-zu-Bild (T2I) haben bemerkenswerte Fähigkeiten bei der Generierung hochgradig treuer Bilder gezeigt. Allerdings haben diese Modelle häufig Schwierigkeiten, komplexe Benutzeranfragen treu umzusetzen, insbesondere in Aspekten wie Attributbindung, Negation und kompositorischen Beziehungen. Dies führt zu einer erheblichen Diskrepanz zwischen der Benutzerabsicht und dem generierten Ergebnis. Um diese Herausforderung zu bewältigen, stellen wir PromptEnhancer vor, einen neuartigen und universellen Ansatz zur Umformulierung von Prompts, der jedes vortrainierte T2I-Modell verbessert, ohne Änderungen an seinen Gewichten vorzunehmen. Im Gegensatz zu früheren Methoden, die auf modell-spezifische Feinabstimmung oder implizite Belohnungssignale wie Bildbelohnungspunkte angewiesen sind, entkoppelt unser Framework den Umformulierer vom Generator. Wir erreichen dies, indem wir einen Chain-of-Thought (CoT) Umformulierer durch Verstärkungslernen trainieren, geleitet von einem speziellen Belohnungsmodell, das wir AlignEvaluator nennen. Der AlignEvaluator wird trainiert, um explizites und detailliertes Feedback basierend auf einer systematischen Taxonomie von 24 Schlüsselpunkten zu geben, die aus einer umfassenden Analyse häufiger T2I-Fehlermuster abgeleitet wurden. Durch die Optimierung des CoT-Umformulierers, um die Belohnung unseres AlignEvaluators zu maximieren, lernt unser Framework, Prompts zu generieren, die von T2I-Modellen präziser interpretiert werden. Ausführliche Experimente mit dem HunyuanImage 2.1-Modell zeigen, dass PromptEnhancer die Bild-Text-Ausrichtung über eine Vielzahl von semantischen und kompositorischen Herausforderungen erheblich verbessert. Darüber hinaus führen wir eine neue, hochwertige Benchmark für menschliche Präferenzen ein, um zukünftige Forschungen in diesem Bereich zu erleichtern.

PromptEnhancer: Ein einfacher Ansatz zur Verbesserung von Text-zu-Bild-Modellen durch Umformulierung von Chain-of-Thought-Prompts

Key Points

Abstract

Cite This Study