What question did this study set out to answer?

이 연구는 비디오에서의 구별 정보의 희소성을 해결하여 인간 행동 인식을 개선하는 것을 목표로 합니다.

May 8, 2026Open Access

인간 행동 인식을 위한 시각적 템포 기반 주의 네트워크

Key Points

이 연구는 비디오에서의 구별 정보의 희소성을 해결하여 인간 행동 인식을 개선하는 것을 목표로 합니다.
특징 표현을 강화하기 위해 시각적 템포 기반 시공간 주의 메커니즘을 제안했습니다.
순환 네트워크에 플러그 앤 플레이 방식으로 주의 모듈을 통합했습니다.
UCF101, HMDB51 및 Kinetics-400 데이터셋에서 실험 검증을 수행했습니다.
RCNN 기반 아키텍처와 비교하여 우수한 성능을 달성했습니다.
최신 최첨단 방법들과의 경쟁력 있는 결과를 보여주었습니다.
높은 정확성과 계산 효율성의 균형을 이루었습니다.

Abstract

인간 행동 인식은 기계 지능 사회에서 가장 도전적인 작업 중 하나입니다. 행동 표현을 학습하기 위해서는 구별 가능한 시공간적 특징을 추출하는 것이 중요합니다. 그러나 비디오의 구별 정보는 일반적으로 희귀하고 많은 양의 중복 및 간섭 정보와 혼합되어 있어 성능 저하와 인식 실패를 초래합니다. 시공간 주의 모듈은 네트워크가 다양한 인간 행동의 구별 가능한 특징 표현을 학습할 수 있도록 합니다. 이러한 모듈 설계에서 종종 간과되는 중요한 핵심 이슈는 행동의 시각적 템포입니다. 비디오는 시간에 따라 일련의 공간 변화를 통해 형성되므로, 본 논문에서는 공간과 시간에서 가장 의미 있는 변화에 집중할 수 있도록 돕는 시각적 템포 기반 시공간 주의 메커니즘을 제안합니다. 제안된 주의 모듈은 플러그 앤 플레이 방식으로 순환 네트워크에 유연하게 통합될 수 있습니다. UCF101, HMDB51 및 Kinetics-400의 실험 결과는 제안된 모델이 RCNN 기반 아키텍처 중에서 우수한 성능을 나타내며 최신의 최첨단 방법들과도 높은 경쟁력을 유지하고 있음을 보여주며, 높은 정확성과 계산 효율성을 효과적으로 균형을 이룹니다.

Bookmark

View Full Paper