March 13, 2024Open Access

VLOGGER: Difusão Multimodal para Síntese de Avatar Corporificado

Key Points

Key points are not available for this paper at this time.

Abstract

Nós propomos o VLOGGER, um método para geração de vídeo humano impulsionado por áudio a partir de uma única imagem de entrada de uma pessoa, que se baseia no sucesso de modelos de difusão generativa recentes. Nosso método consiste em 1) um modelo estocástico de difusão de movimento humano para 3D, e 2) uma nova arquitetura baseada em difusão que aumenta modelos de texto para imagem com controles espaciais e temporais. Isso suporta a geração de vídeo de alta qualidade de comprimento variável, facilmente controlável através de representações de alto nível de rostos e corpos humanos. Em contraste com trabalhos anteriores, nosso método não requer treinamento para cada pessoa, não depende de detecção e recorte facial, gera a imagem completa (não apenas o rosto ou os lábios), e considera um amplo espectro de cenários (por exemplo, torso visível ou identidades de sujeito diversas) que são críticos para sintetizar corretamente humanos que se comunicam. Nós também organizamos o MENTOR, um novo e diversificado conjunto de dados com anotações de pose e expressão 3D, uma ordem de magnitude maior do que os anteriores (800.000 identidades) e com gestos dinâmicos, sobre o qual treinamos e ablatamos nossas principais contribuições técnicas. O VLOGGER supera métodos de ponta em três benchmarks públicos, considerando qualidade de imagem, preservação de identidade e consistência temporal, enquanto também gera gestos de parte superior do corpo. Analisamos o desempenho do VLOGGER com relação a múltiplas métricas de diversidade, mostrando que nossas escolhas arquitetônicas e o uso do MENTOR beneficiam o treinamento de um modelo justo e imparcial em escala. Finalmente, mostramos aplicações em edição de vídeo e personalização.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper