Key points are not available for this paper at this time.
Dieses Papier präsentiert ein Framework zur einmaligen Generierung von sprechenden Kopf-Videos, das ein einzelnes Personenbild und Audio-Clips als Eingabe verwendet und photorealistische Videos mit natürlichen Kopfpositionen und Lippenbewegungen, die mit dem treibenden Audio synchronisiert sind, synthetisiert. Die Hauptidee hinter diesem Framework ist die Verwendung von 3D Morphable Model (3DMM) Parametern als Zwischenrepräsentation bei der Videogenerierung. Wir entwerfen einen Ausdrucksvorhersager und einen Kopfpositionsvorhersager, um die Gesichts- und Kopfpositionsparameter aus dem Audio vorherzusagen, und adoptieren ein 3DMM-Modell, um Identitäts- und Texturparameter aus dem Referenzbild zu extrahieren. Mit diesen Parametern werden Gesichts Bilder als Hilfsmittel gerendert, um die Videogenerierung zu leiten. Im Vergleich zu weit verbreiteten Gesichtslandmarken sind 3DMM-Parameter leistungsfähiger in der Darstellung von Gesichtsdetails. Experimentelle Ergebnisse zeigen, dass unsere Methode realistische sprechende Kopf-Videos generieren kann und viele der neuesten Methoden übertrifft.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hsin-Yu Shen
Wen-Jiin Tsai
National Yang Ming Chiao Tung University
Building similarity graph...
Analyzing shared references across papers
Loading...
Shen et al. (Mittwoch) untersuchten diese Frage.
synapsesocial.com/papers/68e651cbb6db6435875e2935 — DOI: https://doi.org/10.1109/pcs60826.2024.10566437