September 1, 2024Open Access

Estimación Independiente de Habla y Texto de los Movimientos Articulatorios y Alineaciones de Fonemas a partir del Habla

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Este artículo presenta una combinación novedosa de dos tareas, previamente tratadas por separado: la inversión de habla acústica a articulatoria (AAI) y la estimación de movimiento de fonemas a articulatorios (PTA). Nos referimos a esta tarea conjunta como inversión acústica de fonemas a articulatoria (APTAI) y exploramos dos enfoques diferentes, ambos operando de manera independiente del hablante y del texto durante la inferencia. Usamos un enfoque de aprendizaje multitarea, con el objetivo de tomar el habla en bruto como entrada y estimar los correspondientes movimientos articulatorios, la secuencia de fonemas y la alineación de fonemas. Aunque ambos enfoques propuestos comparten estos mismos requisitos, difieren en su forma de lograr predicciones relacionadas con los fonemas: uno se basa en la clasificación de frames, el otro en un procedimiento de entrenamiento en dos etapas y alineación forzada. Alcanzamos un rendimiento competitivo de 0.73 de correlación media para la tarea de AAI y logramos hasta aproximadamente un 87% de superposición de frames en comparación con un alineador de fuerza de fonemas dependiente del texto de última generación.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo