Key points are not available for this paper at this time.
A animação de imagens humanas envolve gerar um vídeo a partir de uma imagem estática seguindo uma sequência de poses especificada. Abordagens atuais geralmente adotam um pipeline de múltiplas etapas que aprende separadamente a aparência e o movimento, o que frequentemente leva à degradação da aparência e inconsistências temporais. Para resolver esses problemas, propomos o VividPose, um pipeline inovador de ponta a ponta baseado na Difusão de Vídeo Estável (SVD) que garante superior estabilidade temporal. Para melhorar a retenção da identidade humana, propomos um controlador de aparência consciente da identidade que integra informações faciais adicionais sem comprometer outros detalhes de aparência, como textura de roupas e fundo. Essa abordagem garante que os vídeos gerados mantenham alta fidelidade à identidade do sujeito humano, preservando características faciais chave em várias poses. Para acomodar diversas formas corporais humanas e movimentos das mãos, introduzimos um controlador de pose consciente da geometria que utiliza tanto mapas de renderização densa do SMPL-X quanto mapas esqueléticos esparsos. Isso possibilita o alinhamento preciso de pose e forma nos vídeos gerados, fornecendo uma estrutura robusta capaz de lidar com uma ampla gama de formas corporais e movimentos dinâmicos das mãos. Extensos experimentos qualitativos e quantitativos nos benchmarks UBCFashion e TikTok demonstram que nosso método atinge desempenho de ponta. Além disso, o VividPose exibe capacidades de generalização superiores em nosso conjunto de dados proposto em ambiente natural. Códigos e modelos estarão disponíveis.
Wang et al. (Ter,) estudaram essa questão.