Los puntos clave no están disponibles para este artículo en este momento.
La cara hablante impulsada por audio, que impulsa a la cara hablante mediante audio, ha recibido una atención considerable en el aprendizaje multimodal debido a su uso generalizado en la realidad virtual. Sin embargo, la grabación prolongada de video de alta calidad del objetivo es necesaria para la mayoría de los estudios existentes sobre caras hablantes impulsadas por audio, lo que aumenta significativamente los costos de personalización. Este artículo propone un nuevo método de generación de caras hablantes impulsadas por audio que es eficiente en datos, que utiliza solo un corto video objetivo para producir un video de cara en alta definición y sincronizado con los labios, impulsado por audio arbitrario en el entorno natural. Los métodos actuales sufren de muchos problemas, como baja definición, falta de sincronización entre el movimiento de los labios y la voz, y fuertes demandas de videos para el entrenamiento. En este trabajo, las imágenes de la cara del personaje objetivo original se descomponen en parámetros de modelos faciales 3D que incluyen expresión, geometría, iluminación, etc. Luego, un video pseudo de baja definición generado por un video de cara adaptado conecta el poderoso modelo preentrenado impulsado por audio a nuestra red de transformación de audio a expresión y ayuda a transferir la capacidad de desentrelazamiento de identidad de audio. La expresión se reemplaza a través de un audio y luego se combina con otros parámetros faciales para renderizar una cara sintética. Finalmente, una red de renderizado neuronal traduce la cara sintética en una cara hablante sin pérdida de definición. Los resultados experimentales muestran que el método propuesto tiene el mejor rendimiento en calidad de imagen en alta definición, y un rendimiento comparable en la sincronización de labios en comparación con los métodos existentes de última generación.
Zhang et al. (Wed,) estudiaron esta cuestión.