인간 행동 인식은 기계 지능 사회에서 가장 도전적인 작업 중 하나입니다. 행동 표현을 학습하기 위해서는 구별 가능한 시공간적 특징을 추출하는 것이 중요합니다. 그러나 비디오의 구별 정보는 일반적으로 희귀하고 많은 양의 중복 및 간섭 정보와 혼합되어 있어 성능 저하와 인식 실패를 초래합니다. 시공간 주의 모듈은 네트워크가 다양한 인간 행동의 구별 가능한 특징 표현을 학습할 수 있도록 합니다. 이러한 모듈 설계에서 종종 간과되는 중요한 핵심 이슈는 행동의 시각적 템포입니다. 비디오는 시간에 따라 일련의 공간 변화를 통해 형성되므로, 본 논문에서는 공간과 시간에서 가장 의미 있는 변화에 집중할 수 있도록 돕는 시각적 템포 기반 시공간 주의 메커니즘을 제안합니다. 제안된 주의 모듈은 플러그 앤 플레이 방식으로 순환 네트워크에 유연하게 통합될 수 있습니다. UCF101, HMDB51 및 Kinetics-400의 실험 결과는 제안된 모델이 RCNN 기반 아키텍처 중에서 우수한 성능을 나타내며 최신의 최첨단 방법들과도 높은 경쟁력을 유지하고 있음을 보여주며, 높은 정확성과 계산 효율성을 효과적으로 균형을 이룹니다.
Koohzadi et al. (Tue,)는 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: