Key points are not available for this paper at this time.
Die Portrait-Fiditätsgenerierung ist ein hervorstechendes Forschungsgebiet in generativen Modellen, mit einem Schwerpunkt auf der Verbesserung sowohl der Kontrollierbarkeit als auch der Fidität. Aktuelle Methoden stehen vor Herausforderungen bei der Generierung von hochauflösenden Portraitresultaten, wenn Gesichter einen kleinen Teil des Bildes mit niedriger Auflösung einnehmen, insbesondere in Mehrpersonen-Gruppenfoto-Szenarien. Um diese Probleme anzugehen, schlagen wir eine systematische Lösung namens MagicID vor, die auf einem selbst konstruierten multimodalen Datensatz mit Millionenebene namens IDZoom basiert. MagicID besteht aus einer Multi-Mode Fusion-Trainingsstrategie (MMF) und einem DDIM-Inversions-basierten ID-Wiederherstellungsinferenzrahmen (DIIR). Während des Trainings verwendet MMF iterativ die Skelett- und Landmarkenmodalitäten von IDZoom als bedingte Anleitung. Durch die Einführung des Clone Face Tuning in der Trainingsphase und des Mask Guided Multi-ID Cross Attention (MGMICA) in der Inferenzphase werden explizite Einschränkungen für die Gesichtspositionsmerkmale erreicht, um Gruppenfotos mit mehreren IDs zu generieren. Das DIIR zielt darauf ab, das Problem von Artefakten zu lösen. Die DDIM-Inversion wird in Kombination mit Gesichtslandmarken sowie globalen und lokalen Gesichtszügen verwendet, um die Gesichtswiederherstellung zu erzielen, während der Hintergrund unverändert bleibt. Zusätzlich ist das DIIR plug-and-play und kann auf jede diffuse basierte Portraitgenerierungsmethode angewendet werden. Um die Wirksamkeit von MagicID zu validieren, führten wir umfangreiche vergleichende und Ablationsexperimente durch. Die experimentellen Ergebnisse zeigen, dass MagicID signifikante Vorteile sowohl in subjektiven als auch in objektiven Metriken hat und eine kontrollierbare Generierung in Mehrpersonenszenarien erreicht.
Deng et al. (Sa,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: