What question did this study set out to answer?

Esta pesquisa tem como objetivo melhorar o processo de geração de imagem para vídeo, abordando questões de coerência temporal e alinhamento com imagens estáticas.

June 16, 2024

TRIP: Aprendizado Residual Temporal com Prior de Ruído de Imagem para Modelos de Difusão de Imagem para Vídeo

Key Points

Esta pesquisa tem como objetivo melhorar o processo de geração de imagem para vídeo, abordando questões de coerência temporal e alinhamento com imagens estáticas.
Desenvolvido o TRIP, um paradigma de difusão de imagem para vídeo usando prior de ruído de imagem.
Implementado um esquema de caminho duplo com um caminho direto e residual usando 3D-UNet.
Conduzidos experimentos nos conjuntos de dados WebVid-10M, DTDB e MSR-VTT.
O TRIP aprimora significativamente o alinhamento entre quadros em vídeos gerados.
Demonstrou uma coerência temporal eficaz e melhorou o raciocínio inter-quadro.
Superou modelos existentes em testes realizados em vários conjuntos de dados.

Abstract

Avanços recentes na geração de vídeo a partir de texto demonstraram a utilidade de poderosos modelos de difusão. No entanto, o problema não é trivial ao moldar modelos de difusão para animar imagens estáticas (ou seja, geração de imagem para vídeo). A dificuldade origina-se do aspecto de que o processo de difusão dos quadros animados subsequentes não deve apenas preservar o alinhamento fiel com a imagem dada, mas também buscar a coerência temporal entre quadros adjacentes. Para aliviar isso, apresentamos o TRIP, uma nova receita do paradigma de difusão de imagem para vídeo que gira em torno do prior de ruído de imagem derivado de uma imagem estática para acionar conjuntamente o raciocínio relacional entre quadros e facilitar a modelagem temporal coerente por meio do aprendizado residual temporal. Tecnica-mente, o prior de ruído de imagem é primeiramente obtido através de um processo de difusão reversa de um passo baseado em códigos latentes de imagem estática e vídeo ruidoso. Em seguida, o TRIP executa um esquema de caminho duplo semelhante a um residual para a previsão de ruído: 1) um caminho direto que leva o prior de ruído de imagem como o ruído de referência de cada quadro para amplificar o alinhamento entre o primeiro quadro e quadros subsequentes; 2) um caminho residual que emprega 3D-UNet sobre vídeo ruidoso e códigos latentes de imagem estática para permitir o raciocínio relacional entre quadros, facilitando assim o aprendizado do ruído residual para cada quadro. Além disso, tanto o ruído de referência quanto o ruído residual de cada quadro são fundidos dinamicamente através de um mecanismo de atenção para a geração final do vídeo. Experimentos extensivos nos conjuntos de dados WebVid-10M, DTDB e MSR-VTT demonstram a eficácia do nosso TRIP para geração de imagem para vídeo. Por favor, veja nossa página do projeto em https://trip-i2v.github.io/TRIP/.

Bookmark

TRIP: Aprendizado Residual Temporal com Prior de Ruído de Imagem para Modelos de Difusão de Imagem para Vídeo

Key Points

Abstract

Cite This Study

Also Consider

Also Consider