July 15, 2024Open Access

MultiMAE-DER：動的感情認識のためのマルチモーダルマスクオートエンコーダー

Key Points

Key points are not available for this paper at this time.

Abstract

本論文では、動的感情認識のためのマルチモーダルデータ処理に関する新しいアプローチである、動的感情認識のためのマルチモーダルマスクオートエンコーダー（MultiMAE-DER）を提案します。MultiMAE-DERは、視覚および音声モダリティにおける時空間シーケンス内の密接に相関した表現情報を活用しています。事前トレーニングされたマスクオートエンコーダーモデルを利用することで、MultiMAE-DERはシンプルで簡単なファインチューニングによって実現されます。MultiMAE-DERの性能は、マルチモーダル入力シーケンスのための6つの融合戦略を最適化することによって向上しています。これらの戦略は、空間的、時間的、および時空間的シーケンス全体のクロスドメインデータ内の動的特徴相関に対処しています。動的感情認識のための最先端のマルチモーダル教師あり学習モデルと比較して、MultiMAE-DERはRAVDESSデータセットで加重平均再現率（WAR）を4.41%、CREMA-Dで2.06%向上させました。さらに、マルチモーダル自己教師あり学習の最先端モデルと比較した場合、MultiMAE-DERはIEMOCAPデータセットで1.86%高いWARを達成しています。

MultiMAE-DER：動的感情認識のためのマルチモーダルマスクオートエンコーダー

Key Points

Abstract

Cite This Study

Also Consider

Also Consider