July 13, 2024Open Access

Emotionserkennung aus Videos mit multimodalen großen Sprachmodellen

Key Points

Key points are not available for this paper at this time.

Abstract

Die Verbreitung multimodaler großer Sprachmodelle (MLLMs) hat neue Forschungsrichtungen im Kontext des Verständnisses und der Klassifizierung von Videoinhalten eröffnet. Die Emotionserkennung aus Videos zielt darauf ab, menschliche Emotionen wie Angst und Furcht automatisch zu erkennen. Dies erfordert eine tiefgehende Ausarbeitung mehrerer Datenmodalitäten, einschließlich akustischer und visueller Ströme. State-of-the-Art-Ansätze nutzen transformerbasierte Architekturen, um multimodale Quellen zu kombinieren. Die beeindruckende Leistung von MLLMs bei der Inhaltssuche und -erzeugung bietet jedoch neue Möglichkeiten, die Fähigkeiten bestehender Emotionserkenner zu erweitern. Diese Arbeit untersucht die Leistung von MLLMs in der Emotionserkennungsaufgabe in einem Zero-Shot-Lernsetting. Darüber hinaus wird eine State-of-the-Art-Architekturverlängerung präsentiert, die auf der Reformulierung von MLLM-Inhalten basiert. Die erzielte Leistung im Hume-Reaction-Benchmark zeigt, dass MLLMs noch nicht in der Lage sind, die durchschnittliche Leistung des State-of-the-Art zu übertreffen, aber bemerkenswert effektiver sind als traditionelle Transformer bei der Erkennung von Emotionen mit einer Intensität, die von der Durchschnittlichkeit der Stichproben abweicht.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper

Cite This Study

Vaiani et al. (Sat,) untersuchten diese Frage.

synapsesocial.com/papers/68e60668b6db64358759a1e3 https://doi.org/https://doi.org/10.3390/fi16070247

Also Consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

KI fragen

Bookmark

View Full Paper