Key points are not available for this paper at this time.
시공간 행동 감지는 비디오 내에서 개별 행동을 로컬화하고 분류하는 작업을 포함합니다. 최근 연구들은 사람과 주변 맥락 사이의 관계를 포착하는 상호작용 모델링을 도입하여 이 과정을 향상시키는 것을 목표로 하고 있습니다. 그러나 이러한 접근법은 주로 완전 감독 학습에 초점을 맞추었으며, 현재의 한계는 보지 못한 행동 카테고리를 인식하는 일반화 능력의 부족에 있습니다. 본 논문에서는 미리 훈련된 이미지-언어 모델을 조정하여 보지 못한 행동을 탐지하는 것을 목표로 합니다. 이를 위해 비주얼-언어 모델의 풍부한 지식을 효과적으로 활용하여 개인-맥락 상호작용을 수행할 수 있는 방법을 제안합니다. 한편, 우리의 맥락 제공 모듈은 맥락 정보를 활용하여 레이블을 제공함으로써 보다 대표적인 텍스트 특징의 생성을 향상시킬 것입니다. 또한 동일한 타임스탬프에서 여러 사람의 구별 가능한 행동을 인식하는 문제를 해결하기 위해, 우리는 미리 훈련된 비주얼 지식을 활용하여 각 개인의 관심 맥락 토큰을 찾는 관심 토큰 스포팅 메커니즘을 설계하였으며, 이후 이 토큰은 개별 맞춤형 텍스트 특징을 생성하기 위한 프롬프트로 사용됩니다. 보지 못한 행동을 탐지하는 능력을 평가하기 위해, 우리는 J-HMDB, UCF101-24 및 AVA 데이터셋에서 포괄적인 벤치마크를 제안합니다. 실험 결과, 우리의 방법이 이전 접근법에 비해 우수한 결과를 달성하며, 다중 행동 비디오로도 확장될 수 있어 실제 응용에 가까워짐을 보여주었습니다. 코드와 데이터는 https://webber2933.github.io/ST-CLIP-project-page에서 찾을 수 있습니다.
Huang 외 (수요일)은 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: