Key points are not available for this paper at this time.
A geração de vídeo a partir de texto (T2V) recentemente atraiu mais atenção devido aos amplos cenários de aplicação dos meios de vídeo. No entanto, em comparação com os substanciais avanços na geração de imagem a partir de texto (T2I), a pesquisa em T2V permanece em seu estágio inicial. A dificuldade reside principalmente em manter a consistência semântica entre texto e visual e a coerência temporal do vídeo. Neste trabalho, propomos um novo GAN de destilação e tradução (DTGAN) para abordar esses problemas. Primeiro, utilizamos a destilação de conhecimento para garantir a consistência semântica. Destilamos mapeamentos textuais-visuais de um modelo mestre T2I de bom desempenho e transferimos para o nosso DTGAN. Esse conhecimento serve como recursos abstratos compartilhados e restrições de alto nível para cada quadro nos vídeos gerados. Em segundo lugar, propomos uma nova unidade recorrente visual (VRU) para alcançar a coerência temporal do vídeo. A VRU pode gerar sequências de quadros e processar a informação temporal entre os quadros. Isso permite que nosso gerador atue como uma variante multimodal do modelo de linguagem na tarefa de tradução automática neural, que prevê iterativamente o próximo quadro com base no texto de entrada e nos quadros gerados anteriormente. Conduzimos experimentos em dois conjuntos de dados sintéticos (SBMG e TBMG) e um conjunto de dados do mundo real (MSVD). Comparações qualitativas e quantitativas com métodos de estado da arte demonstram que nosso DTGAN pode gerar resultados com melhor consistência semântica entre texto e visual e coerência temporal.
Han et al. (Ter,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: