Key points are not available for this paper at this time.
이 논문에서는 EmotiW 2016 Challenge에 제출된 비디오 기반 감정 인식 시스템을 소개합니다. 이 시스템의 핵심 모듈은 순환 신경망(RNN)과 3D 합성곱 신경망(C3D)을 후기 융합 방식으로 결합한 하이브리드 네트워크입니다. RNN과 C3D는 각각 다른 방식으로 외관과 움직임 정보를 인코딩합니다. 구체적으로, RNN은 개별 비디오 프레임에서 합성곱 신경망(CNN)으로 추출된 외관 특징을 입력으로 받아 후에 움직임을 인코딩하며, C3D는 비디오의 외관과 움직임을 동시에 모델링합니다. 오디오 모듈과 결합된 우리의 시스템은 훈련 세트에 추가적인 감정 레이블이 있는 비디오 클립을 사용하지 않고 59.02%의 인식 정확도를 달성했으며, 이는 EmotiW 2015의 우승자 53.8%와 비교됩니다. 광범위한 실험 결과, RNN과 C3D를 결합하는 것이 비디오 기반 감정 인식을 뚜렷하게 개선할 수 있음을 보여줍니다.
Yin 외(월), 이 질문을 연구했습니다.