Key points are not available for this paper at this time.
Cet article propose une méthode d'apprentissage de représentation basée sur le regroupement d'attention pour la reconnaissance des émotions de la parole (SER). La représentation émotionnelle est apprise de manière end-to-end en appliquant un réseau de neurones convolutifs profond (CNN) directement aux spectrogrammes extraits des énoncés de parole. Motivé par le succès de GoogleNet, deux groupes de filtres de différentes formes sont conçus pour capturer à la fois des informations contextuelles temporelles et fréquentielles à partir du spectrogramme d'entrée. Les caractéristiques apprises sont concaténées et alimentées dans les couches convolutives suivantes. Pour apprendre la représentation émotionnelle finale, une nouvelle méthode de regroupement d'attention est également proposée. Comparé aux méthodes de regroupement existantes, telles que le max-pooling et l'average-pooling, le regroupement d'attention proposé peut efficacement incorporer des cartes d'attention ascendente sans classe et des cartes d'attention descendant spécifiques à la classe. Nous effectuons des évaluations approfondies sur les données de référence IEMOCAP pour évaluer l'efficacité de la représentation proposée. Les résultats montrent une performance de reconnaissance de 71,8 % de précision pondérée (WA) et 68 % de précision non pondérée (UA) sur quatre émotions, ce qui surpasse la méthode à la pointe de la technologie d'environ 3 % en absolu pour WA et 4 % pour UA.
Li et al. (Mar,) ont étudié cette question.