Los puntos clave no están disponibles para este artículo en este momento.
A pesar del progreso reciente en el reconocimiento de emociones en el habla (SER), los sistemas de última generación carecen de generalización en diferentes condiciones. Una razón subyacente clave para la mala generalización es la escasez de conjuntos de datos de emociones, que es un obstáculo significativo para diseñar modelos robustos de aprendizaje automático (ML). Los trabajos recientes en SER se centran en utilizar métodos de aprendizaje multitarea (MTL) para mejorar la generalización al aprender representaciones compartidas. Sin embargo, la mayoría de estos estudios proponen soluciones de MTL con el requisito de etiquetas meta para tareas auxiliares, lo que limita el entrenamiento de los sistemas SER. Este artículo propone un marco de MTL (MTL-AUG) que aprende representaciones generalizadas a partir de datos aumentados. Utilizamos clasificación de tipo aumento y reconstrucción no supervisada como tareas auxiliares, lo que permite entrenar sistemas SER en datos aumentados sin requerir etiquetas meta para tareas auxiliares. La naturaleza semi-supervisada del MTL-AUG permite la explotación de los abundantes datos no etiquetados para mejorar aún más el rendimiento de SER. Evaluamos de manera exhaustiva el marco propuesto en los siguientes escenarios: (1) dentro del corpus, (2) entre corpus y entre lenguas, (3) habla ruidosa, (4) y ataques adversariales. Nuestras evaluaciones utilizando los conjuntos de datos ampliamente utilizados IEMOCAP, MSP-IMPROV y EMODB muestran resultados mejorados en comparación con los métodos existentes de última generación.
Latif et al. (Mon,) estudiaron esta cuestión.