Key points are not available for this paper at this time.
Text-zu-Bild-Generierungsmodelle kämpfen oft mit dem Verlust von Schlüsselelementen oder semantischer Verwirrung bei Aufgaben, die chinesische klassische Poesie betreffen. Die Behebung dieses Problems durch Feinabstimmung der Modelle erfordert erhebliche Trainingskosten. Darüber hinaus benötigen manuelle Eingaben für Re-Diffusionsanpassungen professionelles Wissen. Um dieses Problem zu lösen, schlagen wir Poetry2Image vor, einen iterativen Korrekturrahmen für aus chinesischer klassischer Poesie generierte Bilder. Durch die Nutzung eines externen Poesiedatensatzes etabliert Poetry2Image einen automatisierten Rückmeldungs- und Korrekturzyklus, der die Übereinstimmung zwischen Poesie und Bild durch Bildgenerierungsmodelle und nachfolgende Re-Diffusionsmodifikationen, die von großen Sprachmodellen (LLM) vorgeschlagen werden, verbessert. Mit einem Testset von 200 Sätzen chinesischer klassischer Poesie erreicht die vorgeschlagene Methode – wenn sie mit fünf beliebten Bildgenerierungsmodellen integriert wird – eine durchschnittliche Elementvollständigkeit von 70,63 %, was einer Verbesserung von 25,56 % gegenüber der direkten Bildgenerierung entspricht. In Tests zur semantischen Korrektheit erzielt unsere Methode eine durchschnittliche semantische Konsistenz von 80,09 %. Die Studie fördert nicht nur die Verbreitung der antiken Poesiekultur, sondern bietet auch einen Referenzrahmen für ähnliche Methoden ohne Feinabstimmung zur Verbesserung der LLM-Generierung.
Jiang et al. (Sat.) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: