Die multimodale Sentimentanalyse (MSA) umfasst die Integration verschiedener Datenmodalitäten - wie physiologische Signale, Sprache und textuelle Eingaben - um menschliche Emotionen mit höherer Zuverlässigkeit als unimodale Ansätze vorherzusagen. Es bestehen jedoch wichtige Herausforderungen bei der Modellierung von intermodalen Interaktionen, dem Umgang mit modalitätsspezifischem Rauschen und der Aufrechterhaltung der Vorhersagestabilität, wenn einzelne Modalitäten schwach, inkonsistent oder nicht vorhanden sind. Bestehende Ansätze vernachlässigen häufig die kontextuellen Abhängigkeiten innerhalb jeder Modalität und scheitern daran, ihre Beiträge während der Fusion adaptiv auszubalancieren, was zu einer schlechten Generalisierung in realen Szenarien führt. Diese Arbeit schlägt ein Deep-Learning-Framework vor, das auf einer hierarchischen, auf Aufmerksamkeit basierenden Fusion basiert und sowohl intra-modale Beziehungen als auch inter-modale Abhängigkeiten durch Selbst-Attention, Cross-Attention und Multi-Head-Attention-Mechanismen modelliert. Die Merkmals-Extraktionspipelines sind darauf abgestimmt, räumliche und zeitliche Muster innerhalb jeder Modalität mithilfe von konvolutionalen und rekurrenten Schichten zu erfassen. Diese Merkmale werden dann dynamisch ausgerichtet und mit hilfe von auf Aufmerksamkeit basierenden Modulen fusioniert, wodurch das Modell selektiv auf signifikante Signale fokussieren und irrelevante oder Rauschinformation unterdrücken kann. Um die Robustheit und Generalisierung zu verbessern, integriert die Architektur eine Ensemble-Lernstrategie, die mehrere Fusionsmodelle - einschließlich früher Fusion, später Fusion, gated Fusion und graphenbasierter Fusion - durch validierungsgewichtete Durchschnittsbildung kombiniert. Das Training wird durch Regularisierungstechniken wie Dropout und L2-Strafe, adaptive Lernrate-Planung und den Umgang mit Klassenungleichgewicht durch synthetische Datenaugmentation stabilisiert. Die experimentelle Analyse zeigt, dass dieser Ansatz die Leistung der Sentimentvorhersage erheblich verbessert und eine skalierbare und resiliente Lösung für emotionale Systeme in komplexen, multimodalen Umgebungen bietet.
Building similarity graph...
Analyzing shared references across papers
Loading...
Poorva Tiwari
Dr Willmar Schwabe (Germany)
J Aravinth
Amrita Vishwa Vidyapeetham
Amrita Vishwa Vidyapeetham
Building similarity graph...
Analyzing shared references across papers
Loading...
Tiwari et al. (Tue,) haben diese Frage untersucht.
synapsesocial.com/papers/69fbe2f2164b5133a91a23b4 — DOI: https://doi.org/10.1007/s42452-026-08733-8