June 1, 2019

상응 제안으로부터 비디오 표현 학습

Key Points

Key points are not available for this paper at this time.

Abstract

프레임 간의 상응 관계는 비디오의 동적 콘텐츠에 대한 풍부한 정보를 인코딩합니다. 그러나 이러한 정보는 비정규 구조와 복잡한 동적 특성으로 인해 효과적으로 포착하고 학습하는 데 도전적입니다. 본 논문에서는 잠재적인 상응 관계로부터 정보를 집계하여 비디오 표현을 학습하는 새로운 신경망을 제안합니다. 이 네트워크는 CPNet이라고 명명되며, 시간적 일관성을 가진 진화하는 2D 필드를 학습할 수 있습니다. 특히, RGB 전용 입력으로 외관과 장거리 모션을 혼합하여 비디오에 대한 표현을 효과적으로 학습할 수 있습니다. 우리 모델의 유효성을 검증하기 위해 광범위한 절제 실험을 제공합니다. CPNet은 Kinetics에서 기존 방법보다 강력한 성능을 보이며, Something-Something과 Jester에서 최첨단 성능을 달성합니다. 우리는 모델의 동작에 대한 분석을 제공하고 제안의 오류에 대한 강인성을 보여줍니다.

상응 제안으로부터 비디오 표현 학습

Key Points

Abstract

Cite This Study

Also Consider

Also Consider