Key points are not available for this paper at this time.
Studien zur multimodalen Emotionserkennung werden durch den Mangel an gekennzeichneten Korpora hinsichtlich Skalierung und Vielfalt behindert, aufgrund der hohen Annotierungskosten und der Mehrdeutigkeit der Labels. In diesem Papier schlagen wir ein Vortrainingsmodell, MEmoBERT, zur multimodalen Emotionserkennung vor, das multimodale gemeinsame Repräsentationen durch selbstüberwachtes Lernen aus umfangreichen, unbeschrifteten Videodaten erlernt, die in schierer Menge vorliegen. Darüber hinaus schlagen wir, anders als im herkömmlichen "Vortrainieren, Feintuning"-Paradigma, eine promptbasierte Methode vor, die die nachgelagerte Emotionklassifizierungsaufgabe als maskierte Textvorhersage reformuliert, was die nachgelagerte Aufgabe näher an das Vortraining bringt. Umfangreiche Experimente an zwei Benchmark-Datensätzen, IEMOCAP und MSP-IMPROV, zeigen, dass unser vorgeschlagenes MEmoBERT die Emotionserkennungsleistung erheblich verbessert.
Zhao et al. (Mi,) haben diese Frage untersucht.