Key points are not available for this paper at this time.
초록 행동 인식은 최근 뜨거운 연구 주제로, 비디오에서 다양한 인간 행동을 분류하려고 시도합니다. 현재 주류 방법은 일반적으로 특징 추출기로 ImageNet으로 사전 훈련된 모델을 활용하지만, 방대한 정지 이미지 데이터 세트에서 비디오 분류를 위해 모델을 사전 훈련하는 것은 최적의 선택이 아닙니다. 더욱이, 3D 합성곱 신경망(3D CNN)이 저수준 공간-시간 특징 추출에 더 적합하고, 순환 신경망(RNN)이 고수준 시간적 특징 시퀀스 모델링에 더 적합하다는 사실을 주목하는 연구는 극히 드뭅니다. 따라서, 앞서 언급한 두 가지 문제를 해결하기 위해 새로운 모델을 제안합니다. 먼저, 3D CNN 모델을 방대한 비디오 행동 인식 데이터세트인 Kinetics에서 사전 훈련하여 모델의 일반성을 향상시킵니다. 그리고 나서 장기-단기 메모리(LSTM)을 도입하여 Kinetics로 사전 훈련된 3D CNN 모델이 생성한 고수준 시간적 특징을 모델링합니다. 실험 결과는 Kinetics로 사전 훈련된 모델이 일반적으로 ImageNet으로 사전 훈련된 모델보다 우수하다는 것을 보여줍니다. 그리고 우리가 제안한 네트워크는 최종적으로 UCF-101 데이터셋에서 선두 성능을 달성합니다.
Wang 외. (월요일,) 이 질문을 연구했습니다.