What type of study is this?

This is a Experimental Study study.

October 20, 2025Open Access

MoDA: Arquitetura de Difusão Multi-modal para Geração de Cabeças Falantes

Key Points

MoDA melhora a diversidade e o realismo dos vídeos, abordando desafios na geração de cabeças falantes.
A arquitetura utiliza um espaço de parâmetros conjunto para geração de movimento e renderização neural.
O emparelhamento de fluxo simplifica o processo de aprendizado de difusão, aumentando a eficiência geral.
Uma estratégia de fusão de grosso para fino integra diferentes modalidades para uma expressividade mais rica.

Abstract

A geração de cabeças falantes com identidades e áudio de fala arbitrários permanece um problema crucial no reino do metaverso virtual. Recentemente, modelos de difusão tornaram-se uma técnica generativa popular nesse campo, com suas fortes capacidades de geração. No entanto, vários desafios permanecem para métodos baseados em difusão: 1) inferência ineficiente e artefatos visuais causados pelo espaço latente implícito de Autoencoders Variacionais (VAE), o que complica o processo de difusão; 2) falta de expressões faciais autênticas e movimentos da cabeça devido à fusão inadequada de informações multi-modais. Neste artigo, o MoDA lida com esses desafios: 1) definindo um espaço de parâmetro conjunto que conecta a geração de movimento e a renderização neural, além de aproveitar o emparelhamento de fluxo para simplificar o aprendizado de difusão; 2) introduzindo uma arquitetura de difusão multi-modal para modelar a interação entre movimento ruidoso, áudio e condições auxiliares, melhorando a expressividade facial geral. Além disso, uma estratégia de fusão de grosso para fino é empregada para integrar progressivamente diferentes modalidades, garantindo uma fusão eficaz de características. Resultados experimentais demonstram que o MoDA melhora a diversidade, realismo e eficiência dos vídeos, tornando-o adequado para aplicações do mundo real. Página do Projeto: https://lixinyyang.github.io/MoDA.github.io/

MoDA: Arquitetura de Difusão Multi-modal para Geração de Cabeças Falantes

Key Points

Abstract

Cite This Study

Also Consider

Also Consider