Avanços recentes na geração de vídeo a partir de texto demonstraram a utilidade de poderosos modelos de difusão. No entanto, o problema não é trivial ao moldar modelos de difusão para animar imagens estáticas (ou seja, geração de imagem para vídeo). A dificuldade origina-se do aspecto de que o processo de difusão dos quadros animados subsequentes não deve apenas preservar o alinhamento fiel com a imagem dada, mas também buscar a coerência temporal entre quadros adjacentes. Para aliviar isso, apresentamos o TRIP, uma nova receita do paradigma de difusão de imagem para vídeo que gira em torno do prior de ruído de imagem derivado de uma imagem estática para acionar conjuntamente o raciocínio relacional entre quadros e facilitar a modelagem temporal coerente por meio do aprendizado residual temporal. Tecnica-mente, o prior de ruído de imagem é primeiramente obtido através de um processo de difusão reversa de um passo baseado em códigos latentes de imagem estática e vídeo ruidoso. Em seguida, o TRIP executa um esquema de caminho duplo semelhante a um residual para a previsão de ruído: 1) um caminho direto que leva o prior de ruído de imagem como o ruído de referência de cada quadro para amplificar o alinhamento entre o primeiro quadro e quadros subsequentes; 2) um caminho residual que emprega 3D-UNet sobre vídeo ruidoso e códigos latentes de imagem estática para permitir o raciocínio relacional entre quadros, facilitando assim o aprendizado do ruído residual para cada quadro. Além disso, tanto o ruído de referência quanto o ruído residual de cada quadro são fundidos dinamicamente através de um mecanismo de atenção para a geração final do vídeo. Experimentos extensivos nos conjuntos de dados WebVid-10M, DTDB e MSR-VTT demonstram a eficácia do nosso TRIP para geração de imagem para vídeo. Por favor, veja nossa página do projeto em https://trip-i2v.github.io/TRIP/.
Zhang et al. (Sun,) estudaram esta questão.
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: