Key points are not available for this paper at this time.
Die Generierung und Bearbeitung von Bildern aus Textaufforderungen im offenen Bereich ist eine herausfordernde Aufgabe, die bisher teure und speziell trainierte Modelle erforderte. Wir demonstrieren eine neuartige Methodik für beide Aufgaben, die in der Lage ist, Bilder von hoher visueller Qualität aus Textaufforderungen mit signifikanter semantischer Komplexität ohne jegliches Training zu erzeugen, indem sie einen multimodalen Encoder verwendet, um die Bildgenerationen zu steuern. Wir zeigen anhand einer Vielzahl von Aufgaben, wie die Verwendung von CLIP 37 zur Steuerung von VQGAN 11 Ausgaben von höherer visueller Qualität produziert als frühere, weniger flexible Ansätze wie DALL-E 38, GLIDE 33 und Open-Edit 24, obwohl sie nicht für die präsentierten Aufgaben trainiert wurden. Unser Code ist in einem öffentlichen Repository verfügbar.
Crowson et al. (Mon,) haben diese Frage untersucht.