Key points are not available for this paper at this time.
Aufgaben der Mustererkennung stehen oft vor der Situation, dass Trainingsdaten nicht vollständig repräsentativ für Testdaten sind. Dieses Problem ist in der Spracherkennung gut anerkannt, wo Methoden wie die Normalisierung des cepstralen Mittelwerts (CMN), die Normalisierung der Sprachkanallängen (VTLN) und die maximale Wahrscheinlichkeit lineare Regression (MLLR) verwendet werden, um Unterschiede zwischen Kanal und Sprecher auszugleichen. Die Spraemotionserkennung (SER) ist ein wichtiges aufkommendes Feld in der Mensch-Computer-Interaktion und sieht sich denselben Problemen der Datenverschiebung gegenüber - ein Fakt, der in diesem Bereich allgemein übersehen wurde. In diesem Papier zeigen wir, dass das Ausgleichen von Kanal- und Sprecherunterschieden erhebliche Verbesserungen in der SER bieten kann, indem wir diese Unterschiede als Kovariate-Verschiebung modellieren. Wir verwenden drei Algorithmen aus dem Bereich des Transferlernens, die Gewichtungen von Wichtigkeit (IWs) innerhalb eines Support-Vektor-Maschinenklassifikators anwenden, um die Auswirkungen der Kovariate-Verschiebung zu verringern. Wir testen diese Methoden am FAU Aibo Emotion Corpus, der beim Interspeech 2009 Emotion Challenge verwendet wurde. Er besteht aus zwei separaten Teilen, die an verschiedenen Schulen unabhängig aufgenommen wurden; daher zeigen die beiden Teile Kovariate-Verschiebung. Die Ergebnisse zeigen, dass die IW-Methoden besser abschneiden als die kombinierte CMN- und VTLN-Methoden und die Basislinienleistung der Challenge signifikant verbessern. Die beste der drei Methoden verbessert sich auch signifikant gegenüber dem Gewinnerbeitrag zur Challenge.
Hassan et al. (Wed,) haben diese Frage untersucht.