A geração de cabeças falantes com identidades e áudio de fala arbitrários permanece um problema crucial no reino do metaverso virtual. Recentemente, modelos de difusão tornaram-se uma técnica generativa popular nesse campo, com suas fortes capacidades de geração. No entanto, vários desafios permanecem para métodos baseados em difusão: 1) inferência ineficiente e artefatos visuais causados pelo espaço latente implícito de Autoencoders Variacionais (VAE), o que complica o processo de difusão; 2) falta de expressões faciais autênticas e movimentos da cabeça devido à fusão inadequada de informações multi-modais. Neste artigo, o MoDA lida com esses desafios: 1) definindo um espaço de parâmetro conjunto que conecta a geração de movimento e a renderização neural, além de aproveitar o emparelhamento de fluxo para simplificar o aprendizado de difusão; 2) introduzindo uma arquitetura de difusão multi-modal para modelar a interação entre movimento ruidoso, áudio e condições auxiliares, melhorando a expressividade facial geral. Além disso, uma estratégia de fusão de grosso para fino é empregada para integrar progressivamente diferentes modalidades, garantindo uma fusão eficaz de características. Resultados experimentais demonstram que o MoDA melhora a diversidade, realismo e eficiência dos vídeos, tornando-o adequado para aplicações do mundo real. Página do Projeto: https://lixinyyang.github.io/MoDA.github.io/
Li et al. (Sex,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: