Key points are not available for this paper at this time.
人々は顔や声で感情の状態を伝えます。私たちは、マルチモーダルな感情表現と知覚の研究に特有の音声・視覚データセットを提示します。このデータセットは、さまざまな基本的な感情状態(幸福、悲しみ、怒り、恐れ、嫌悪、中立)で話された文中の顔の表情と声の感情表現で構成されています。91人の異なる民族的背景を持つ俳優の7,442クリップが、音声、視覚、音声-視覚の3つのモダリティで複数の評価者によって評価されました。感情のカテゴリラベルと知覚された感情に対する実値の強度値は、2,443人の評価者からクラウドソーシングにより収集されました。音声のみ、視覚のみ、音声-視覚データに対する意図された感情の人間による認識率はそれぞれ40.9%、58.2%、63.6%です。認識率は中立が最も高く、次いで幸福、怒り、嫌悪、恐れ、悲しみの順です。感情の平均強度レベルは、視覚のみの知覚で最も高く評価されます。嫌悪と恐れの正確な認識には同時の音声-視覚的手がかりが必要であり、怒りと幸福は単一のモダリティからの証拠に基づいてよく認識されることができます。私たちが紹介する大規模なデータセットは、感情の音声-視覚的知覚に関する他の質問を探求するために使用できます。
Cao et al. (Thu,) はこの問題を研究しました。