Key points are not available for this paper at this time.
Die Generierung von sprechenden Köpfen ist ein bedeutendes Forschungsthema, das noch zahlreiche Herausforderungen mit sich bringt. Frühere Arbeiten verwenden oft generative gegenerative Netzwerke oder Regressionsmodelle, die mit Problemen bei der Generierungsqualität und der durchschnittlichen Gesichtsform belastet sind. Obwohl Diffusionsmodelle beeindruckende generative Fähigkeiten zeigen, bleibt ihre Erforschung in der Generierung von sprechenden Köpfen unzureichend. Dies liegt daran, dass sie entweder ausschließlich das Diffusionsmodell verwenden, um eine Zwischenrepräsentation zu erhalten, und dann einen anderen vortrainierten Renderer einsetzen, oder sie übersehen die Entkopplung der Merkmale komplexer Gesichtsdetaillierungen, wie Ausdrücke, Kopfhaltungen und Erscheinungstexturen. Daher schlagen wir ein gesichtlich entkoppeltes Diffusionsmodell zur Generierung von sprechenden Köpfen namens FD2Talk vor, das die Vorteile von Diffusionsmodellen vollständig nutzt und die komplexen Gesichtsdetails durch mehrere Phasen entkoppelt. Genauer gesagt trennen wir Gesichtsdaten in Bewegung und Erscheinung. In der initialen Phase entwerfen wir den Diffusion Transformer, um Bewegungskoeffizienten präzise aus rohem Audio vorherzusagen. Diese Bewegungen sind stark von der Erscheinung entkoppelt, was es dem Netzwerk erleichtert, sie im Vergleich zu hochdimensionalen RGB-Bildern zu erlernen. In der zweiten Phase kodieren wir das Referenzbild, um Erscheinungstexturen zu erfassen. Die vorhergesagten Gesichts- und Kopfbewegungen sowie die kodierte Erscheinung dienen dann als Bedingungen für das Diffusion UNet, das die Bildgenerierung steuert. Dank der Entkopplung von Gesichtsdaten und der vollständigen Nutzung von Diffusionsmodellen belegen umfangreiche Experimente, dass unser Ansatz die Bildqualität verbessert und genauere sowie vielfältigere Ergebnisse im Vergleich zu früheren hochmodernen Methoden generiert.
Yao et al. (Sun,) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: