Los puntos clave no están disponibles para este artículo en este momento.
La mayoría de los métodos existentes de síntesis de rostros hablantes 3D sufren de la falta de expresiones faciales detalladas y poses de cabeza realistas, lo que resulta en experiencias insatisfactorias para los usuarios. En este artículo, proponemos un método novedoso de síntesis de rostros hablantes 3D consciente de la pose con una nueva atención de audio-vertices guiada por geometría. Para capturar expresiones más detalladas, como los matices sutiles de la forma de la boca y el movimiento de los ojos, proponemos construir características de audio jerárquicas que incluyen una característica de atributo global y una serie de características de movimiento latente local por vértice. Luego, para aprovechar al máximo la topología de los modelos faciales, proponemos además un nuevo módulo de atención de audio-vertices guiada por geometría para predecir el desplazamiento de cada vértice utilizando relaciones de conectividad de vértices para aprovechar al máximo las características de audio jerárquicas correspondientes. Finalmente, para lograr una animación consciente de la pose, ampliamos la base de datos existente con un atributo de pose adicional, y se propone un nuevo módulo de estimación de pose prestando atención a todo el modelo de la cabeza. Experimentos numéricos demuestran la efectividad del método propuesto en expresiones realistas y movimientos de cabeza frente a métodos de vanguardia.
Li et al. (Mié,) estudiaron esta cuestión.