Key points are not available for this paper at this time.
La synthèse de têtes parlantes est une technique pratique avec de larges applications. Les approches basées sur le Champ de Radiance Neuronal (NeRF) actuel ont montré leur supériorité dans la conduite de têtes parlantes en prise de vue unique avec des vidéos ou des signaux régressés à partir de l’audio. Cependant, la plupart d'entre elles n'ont pas réussi à prendre l'audio comme information directe, incapable de profiter de la flexibilité et de la disponibilité de la parole. Comme le mapping des signaux audio à la déformation faciale n'est pas trivial, nous concevons dans cet article une méthode de Champ de Radiance Neuronal Régi par la Parole en Prise de Vue Unique (S³D-NeRF) pour traiter les trois difficultés suivantes : apprendre une caractéristique d'apparence représentative pour chaque identité, modéliser le mouvement de différentes régions du visage avec l'audio, et maintenir la cohérence temporelle de la zone des lèvres. À cette fin, nous introduisons un Encodeur Hiérarchique d'Apparence Faciale pour apprendre des représentations à multi-échelles afin de capturer l'apparence de différents intervenants, et élaborons un Champ de Déformation Faciale Cross-modal pour réaliser l'animation de la parole en fonction de la relation entre le signal audio et les différentes régions faciales. De plus, pour renforcer la cohérence temporelle de la zone cruciale des lèvres, nous introduisons un discriminateur de synchronisation labiale pour pénaliser les séquences audio-visuelles hors synchronisation. D'importantes expériences ont montré que notre S³D-NeRF surpasse les œuvres précédentes tant en fidélité vidéo qu'en synchronisation audio-labiale.
Building similarity graph...
Analyzing shared references across papers
Loading...
Dongze Li
East China University of Science and Technology
Kang Zhao
Zhejiang University
Wei Wang
China Aerospace Science and Technology Corporation
Building similarity graph...
Analyzing shared references across papers
Loading...
Li et al. (Sat,) ont étudié cette question.
synapsesocial.com/papers/68e5be7bb6db6435875565cb — DOI: https://doi.org/10.48550/arxiv.2408.09347
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: