Key points are not available for this paper at this time.
本論文では、動的感情認識のためのマルチモーダルデータ処理に関する新しいアプローチである、動的感情認識のためのマルチモーダルマスクオートエンコーダー(MultiMAE-DER)を提案します。MultiMAE-DERは、視覚および音声モダリティにおける時空間シーケンス内の密接に相関した表現情報を活用しています。事前トレーニングされたマスクオートエンコーダーモデルを利用することで、MultiMAE-DERはシンプルで簡単なファインチューニングによって実現されます。MultiMAE-DERの性能は、マルチモーダル入力シーケンスのための6つの融合戦略を最適化することによって向上しています。これらの戦略は、空間的、時間的、および時空間的シーケンス全体のクロスドメインデータ内の動的特徴相関に対処しています。動的感情認識のための最先端のマルチモーダル教師あり学習モデルと比較して、MultiMAE-DERはRAVDESSデータセットで加重平均再現率(WAR)を4.41%、CREMA-Dで2.06%向上させました。さらに、マルチモーダル自己教師あり学習の最先端モデルと比較した場合、MultiMAE-DERはIEMOCAPデータセットで1.86%高いWARを達成しています。
Xiang et al. (Mon,) はこの問題を研究しました。
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: