March 1, 2017

Verwendung regionaler Salienz zur Spracherkennung von Emotionen

Key Points

Key points are not available for this paper at this time.

Abstract

In dieser Arbeit zeigen wir, dass konvolutionale neuronale Netze direkt auf temporale niederwertige akustische Merkmale angewendet werden können, um emotional bedeutsame Regionen zu identifizieren, ohne dass die Notwendigkeit besteht, Statistiken auf Äußerungsebene festzulegen oder anzuwenden. Wir zeigen, wie ein konvolutionales neuronales Netz auf minimal hand-engineerte Merkmale angewendet werden kann, um wettbewerbsfähige Ergebnisse auf den IEMOCAP- und MSP-IMPROV-Datensätzen zu erzielen. Darüber hinaus zeigen wir, dass Statistiken auf Äußerungsebene, obwohl sie in den meisten Kategorien akustischer Merkmale häufig verwendet werden, emotionale Informationen verschleiern können. Unsere Ergebnisse legen nahe, dass konvolutionale neuronale Netze mit Mel-Filterbänken (MFBs) als Ersatz für Klassifizierer verwendet werden können, die auf Merkmalen basieren, die durch Anwendung von Statistiken auf Äußerungsebene gewonnen wurden.

KI fragen

Bookmark