Key points are not available for this paper at this time.
In dieser Arbeit zeigen wir, dass konvolutionale neuronale Netze direkt auf temporale niederwertige akustische Merkmale angewendet werden können, um emotional bedeutsame Regionen zu identifizieren, ohne dass die Notwendigkeit besteht, Statistiken auf Äußerungsebene festzulegen oder anzuwenden. Wir zeigen, wie ein konvolutionales neuronales Netz auf minimal hand-engineerte Merkmale angewendet werden kann, um wettbewerbsfähige Ergebnisse auf den IEMOCAP- und MSP-IMPROV-Datensätzen zu erzielen. Darüber hinaus zeigen wir, dass Statistiken auf Äußerungsebene, obwohl sie in den meisten Kategorien akustischer Merkmale häufig verwendet werden, emotionale Informationen verschleiern können. Unsere Ergebnisse legen nahe, dass konvolutionale neuronale Netze mit Mel-Filterbänken (MFBs) als Ersatz für Klassifizierer verwendet werden können, die auf Merkmalen basieren, die durch Anwendung von Statistiken auf Äußerungsebene gewonnen wurden.
Aldeneh et al. (Wed,) haben diese Frage untersucht.
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: