Key points are not available for this paper at this time.
Systeme zur multimodalen Emotionserkennung (ER) werden häufig trainiert, um Merkmale aus verschiedenen Modalitäten (z. B. visuell, akustisch und textuell) zu extrahieren, die kombiniert werden, um individuelle Grundemotionen vorherzusagen. Allerdings treten komplexe Emotionen oft in realen Szenarien auf, und die Unsicherheit bei der Erkennung solcher komplexen Emotionen über verschiedene Modalitäten stellt eine Herausforderung für merkmalsbasierte Modelle dar. Als Alternative stützen sich aufkommende multimodale große Sprachmodelle (LLMs) wie BERT und LLaMA auf explizite nonverbale Hinweise, die aus verschiedenen nicht-textuellen Modalitäten (z. B. Audio und visuell) in Text übersetzt werden können. Die Textualisierung von Modalitäten erweitert die Daten mit emotionalen Hinweisen, um dem LLM zu helfen, die Zusammenhänge zwischen allen Modalitäten in einem gemeinsamen Textraum zu kodieren. In solchen textbasierten Modellen wird vorhandenes Wissen über ER-Aufgaben genutzt, um relevante nonverbale Hinweise zu textualisieren, wie z. B. den Stimmton aus vokalen Ausdrücken und die Intensität von Aktionseinheiten aus Gesichtsausdrücken. Da die vortrainierten Gewichte für viele LLMs öffentlich verfügbar sind, ist das Training an umfangreichen Datensätzen nicht notwendig, was eine Feinabstimmung für nachgelagerte Aufgaben wie die Erkennung komplexer Emotionen (CER) ermöglicht. Dieses Papier vergleicht das Potenzial von text- und merkmalsbasierten Ansätzen zur Erkennung komplexer multimodal Emotionen in Videos. Experimente wurden an dem herausfordernden C-EXPR-DB-Datensatz in der freien Wildbahn für CER durchgeführt und mit Ergebnissen des MELD-Datensatzes für die grundlegende ER kontrastiert. Unsere Ergebnisse zeigen, dass die multimodale Textualisierung eine geringere Genauigkeit als merkmalsbasierte Modelle auf C-EXPR-DB bietet, wo die Texttranskripte in der Wildbahn erfasst werden. Eine höhere Genauigkeit kann jedoch erreicht werden, wenn die Videodaten reichhaltige Transkripte enthalten. Unser Code ist verfügbar.
Richet et al. (Wed,) untersuchten diese Frage.