Key points are not available for this paper at this time.
Apresentamos o Motion-I2V, uma nova estrutura para geração de imagem para vídeo consistente e controlável guiada por texto (I2V). Em contraste com métodos anteriores que aprendem diretamente o complicado mapeamento de imagem para vídeo, o Motion-I2V fatoriza I2V em duas etapas com modelagem de movimento explícita. Para a primeira etapa, propomos um preditor de campo de movimento baseado em difusão, que foca em deduzir as trajetórias dos pixels da imagem de referência. Para a segunda etapa, propomos uma atenção temporal aumentada por movimento para melhorar a limitada atenção temporal unidimensional em modelos de difusão latente de vídeo. Este módulo pode efetivamente propagar características da imagem de referência para quadros sintetizados com a orientação das trajetórias previstas da primeira etapa. Comparado com métodos existentes, o Motion-I2V pode gerar vídeos mais consistentes, mesmo na presença de grandes movimentos e variações de ponto de vista. Ao treinar um ControlNet de trajetória esparsa para a primeira etapa, o Motion-I2V pode ajudar os usuários a controlar com precisão as trajetórias de movimento e regiões de movimento com trajetória e região esparsas. Isso oferece mais controle sobre o processo de I2V do que simplesmente confiar em instruções textuais. Além disso, a segunda etapa do Motion-I2V suporta naturalmente tradução de vídeo para vídeo zero-shot. Tanto as comparações qualitativas quanto quantitativas demonstram as vantagens do Motion-I2V em relação a abordagens anteriores na geração consistente e controlável de imagem para vídeo. Por favor, veja nossa página de projeto em https://xiaoyushi97.github.io/Motion-I2V/.
Shi et al. (Sex,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: