Key points are not available for this paper at this time.
Text-zu-Bild-(TTI)-Diffusionsmodelle haben beeindruckende Ergebnisse bei der Erzeugung hochauflösender Bilder komplexer und fantasievoller Szenen gezeigt. Jüngste Ansätze haben diese Methoden zudem mit Personalisierungstechniken erweitert, die es ermöglichen, benutzerillustrierte Konzepte (z. B. der Nutzer selbst) mittels weniger Beispielbilder zu integrieren. Die Fähigkeit, Bilder mit mehreren interagierenden Konzepten, wie menschlichen Subjekten, sowie Konzepten, die in einem oder über mehrere Bildillustrationen verflochten sein können, zu generieren, bleibt jedoch schwer erreichbar. In dieser Arbeit schlagen wir ein konzeptgesteuertes TTI-Personalisierungsframework vor, das diese Kernprobleme adressiert. Wir bauen auf bestehenden Arbeiten auf, die benutzerdefinierte Token für benutzerillustrierte Konzepte lernen, welche mit den vorhandenen Text-Token im TTI-Modell interagieren können. Wichtig ist jedoch, dass wir zur Entflechtung und besseren Erlernung der betreffenden Konzepte gemeinsam (latente) Segmentierungsmasken erlernen, die diese Konzepte in den vom Benutzer bereitgestellten Bildillustrationen entflechten. Dies erreichen wir durch die Einführung eines EM-ähnlichen Optimierungsverfahrens, bei dem wir abwechselnd die benutzerdefinierten Token lernen und Masken schätzen, die die entsprechenden Konzepte in den Nutzereingabebildern umfassen. Diese Masken erhalten wir anhand von Kreuz-Attention aus dem im U-Net parametrisierten latenten Diffusionsmodell sowie einer anschließenden Dense-CRF-Optimierung. Wir zeigen, dass eine solche gemeinsame, abwechselnde Verfeinerung zum Lernen besserer Token für die Konzepte führt und als Nebeneffekt latente Masken hervorbringt. Die Vorteile des vorgeschlagenen Ansatzes veranschaulichen wir qualitativ und quantitativ (durch Nutzerstudien) mit einer Reihe von Beispielen und Anwendungsfällen, die bis zu drei verflochtene Konzepte kombinieren können.
Rahman et al. (Sun,) haben diese Frage untersucht.