Key points are not available for this paper at this time.
Die Verbreitung multimodaler großer Sprachmodelle (MLLMs) hat neue Forschungsrichtungen im Kontext des Verständnisses und der Klassifizierung von Videoinhalten eröffnet. Die Emotionserkennung aus Videos zielt darauf ab, menschliche Emotionen wie Angst und Furcht automatisch zu erkennen. Dies erfordert eine tiefgehende Ausarbeitung mehrerer Datenmodalitäten, einschließlich akustischer und visueller Ströme. State-of-the-Art-Ansätze nutzen transformerbasierte Architekturen, um multimodale Quellen zu kombinieren. Die beeindruckende Leistung von MLLMs bei der Inhaltssuche und -erzeugung bietet jedoch neue Möglichkeiten, die Fähigkeiten bestehender Emotionserkenner zu erweitern. Diese Arbeit untersucht die Leistung von MLLMs in der Emotionserkennungsaufgabe in einem Zero-Shot-Lernsetting. Darüber hinaus wird eine State-of-the-Art-Architekturverlängerung präsentiert, die auf der Reformulierung von MLLM-Inhalten basiert. Die erzielte Leistung im Hume-Reaction-Benchmark zeigt, dass MLLMs noch nicht in der Lage sind, die durchschnittliche Leistung des State-of-the-Art zu übertreffen, aber bemerkenswert effektiver sind als traditionelle Transformer bei der Erkennung von Emotionen mit einer Intensität, die von der Durchschnittlichkeit der Stichproben abweicht.
Vaiani et al. (Sat,) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: