Los puntos clave no están disponibles para este artículo en este momento.
Diseñamos un enfoque de GAN en cascada para generar videos de caras hablantes, que es robusto a diferentes formas de cara, ángulos de vista, características faciales y condiciones de audio ruidoso. En lugar de aprender un mapeo directo de audio a fotogramas de video, proponemos primero transferir el audio a una estructura de alto nivel, es decir, los hitos faciales, y luego generar fotogramas de video condicionados a los hitos. En comparación con un enfoque directo de audio a imagen, nuestro enfoque en cascada evita ajustar correlaciones espurias entre señales audiovisuales que son irrelevantes para el contenido del habla. Nosotros, los humanos, somos sensibles a discontinuidades temporales y artefactos sutiles en el video. Para evitar problemas de temblor de píxeles y obligar a la red a centrarse en regiones correlacionadas audiovisualmente, proponemos una nueva pérdida a nivel de píxel ajustable dinámicamente con un mecanismo de atención. Además, para generar una imagen más nítida con movimientos faciales bien sincronizados, proponemos una nueva estructura de discriminador basada en regresión, que considera información a nivel de secuencia junto con información a nivel de fotograma. Experimentos cuidadosos en varios conjuntos de datos y muestras del mundo real demuestran resultados significativamente mejores obtenidos por nuestro método que los métodos de última generación en comparaciones tanto cuantitativas como cualitativas.
Chen et al. (Sat,) estudiaron esta cuestión.
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: