Los puntos clave no están disponibles para este artículo en este momento.
Este artículo presenta una combinación novedosa de dos tareas, previamente tratadas por separado: la inversión de habla acústica a articulatoria (AAI) y la estimación de movimiento de fonemas a articulatorios (PTA). Nos referimos a esta tarea conjunta como inversión acústica de fonemas a articulatoria (APTAI) y exploramos dos enfoques diferentes, ambos operando de manera independiente del hablante y del texto durante la inferencia. Usamos un enfoque de aprendizaje multitarea, con el objetivo de tomar el habla en bruto como entrada y estimar los correspondientes movimientos articulatorios, la secuencia de fonemas y la alineación de fonemas. Aunque ambos enfoques propuestos comparten estos mismos requisitos, difieren en su forma de lograr predicciones relacionadas con los fonemas: uno se basa en la clasificación de frames, el otro en un procedimiento de entrenamiento en dos etapas y alineación forzada. Alcanzamos un rendimiento competitivo de 0.73 de correlación media para la tarea de AAI y logramos hasta aproximadamente un 87% de superposición de frames en comparación con un alineador de fuerza de fonemas dependiente del texto de última generación.
Weise et al. (Sun,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: