Key points are not available for this paper at this time.
Künstliche emotionale Intelligenz ist ein Teilbereich der Forschung zur Mensch-Computer-Interaktion, der darauf abzielt, Deep-Learning-Modelle zu entwickeln, die in der Lage sind, menschliche emotionale Zustände durch verschiedene Modalitäten zu erkennen und zu interpretieren. Eine große Herausforderung in diesem Bereich besteht darin, sinnvolle Korrelationen zwischen heterogenen Modalitäten zu identifizieren – zum Beispiel zwischen Audio- und visuellen Daten – aufgrund ihrer unterschiedlichen zeitlichen und räumlichen Eigenschaften. Traditionelle Fusionstechniken, die im multimodalen Lernen verwendet werden, um Daten aus verschiedenen Quellen zu kombinieren, scheitern häufig daran, bedeutungsvolle und weniger rechnerisch aufwendige intermodale Interaktionen angemessen zu erfassen, und haben Schwierigkeiten, sich an die unterschiedliche Zuverlässigkeit der Modalitäten anzupassen. Nach einer Durchsicht der relevanten Literatur nimmt diese Studie eine experimentelle Forschungsmethode an, um ein mathematisches intermodales Fusionsmodell zu entwickeln und zu evaluieren, wobei eine Lücke in der bestehenden Forschungsliteratur angesprochen wird. Der Rahmen nutzt die Tucker-Tensor-Zerlegung, um das mehrdimensionale Datenarray in eine Menge von Matrizen zu analysieren, um die Integration zeitlicher Merkmale aus Audio und räumlich-zeitlichen Merkmalen aus visuellen Modalitäten zu unterstützen. Ein Kreuz-Auppmerksamkeitsmechanismus wird integriert, um die intermodale Interaktion zu verbessern, wodurch jede Modalität auf die relevanten Informationen der anderen achten kann. Die Wirksamkeit des Modells wird rigoros an drei öffentlich verfügbaren Datensätzen evaluiert, und die Ergebnisse zeigen eindeutig, dass die vorgeschlagene Fusionsmethode herkömmliche Fusionsmethoden und mehrere neuere Ansätze übertrifft. Die Ergebnisse ebnen neue Wege in diesem Forschungsbereich und werden für Forscher und Entwickler in der künstlichen emotionalen Intelligenz von Interesse sein.
Kumar et al. (Mon,) haben diese Frage untersucht.