Los puntos clave no están disponibles para este artículo en este momento.
La generación de video a partir de texto (T2V) ha atraído recientemente más atención debido a los amplios escenarios de aplicación de los medios de video. Sin embargo, en comparación con los avances sustanciales en la generación de imagen a partir de texto (T2I), la investigación sobre T2V sigue en su etapa inicial. La dificultad radica principalmente en mantener la consistencia semántica entre texto y visual y la coherencia temporal del video. En este artículo, proponemos un nuevo GAN de destilación y traducción (DTGAN) para abordar estos problemas. Primero, aprovechamos la destilación del conocimiento para garantizar la consistencia semántica. Destilamos las correlaciones entre texto y visual de un modelo docente T2I de buen rendimiento y lo transferimos a nuestro DTGAN. Este conocimiento sirve como características abstractas compartidas y restricciones de alto nivel para cada cuadro en los videos generados. En segundo lugar, proponemos una nueva unidad recurrente visual (VRU) para lograr la coherencia temporal del video. La VRU puede generar secuencias de cuadros así como procesar la información temporal entre cuadros. Permite que nuestro generador actúe como una variante multimodal del modelo de lenguaje en la tarea de traducción automática, que predice iterativamente el siguiente cuadro basado en el texto de entrada y los cuadros generados previamente. Realizamos experimentos en dos conjuntos de datos sintéticos (SBMG y TBMG) y un conjunto de datos del mundo real (MSVD). Comparaciones cualitativas y cuantitativas con métodos de última generación demuestran que nuestro DTGAN puede generar resultados con mejor consistencia semántica entre texto y visual y coherencia temporal.
Han et al. (Tue,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: