Key points are not available for this paper at this time.
우리는 훈련 중에 비디오 수준의 행동 레이블만 사용 가능한 제약 없는 웹 비디오에서 약한 감독 하의 시간 행동 위치 지정이라는 도전적인 문제를 다룹니다. 약한 감독의 의미 분할에서 적대적 지우기 전략에 영감을 받아, 우리는 새로운 반복적 승자 제거 네트워크를 제안합니다. 구체적으로, 우리는 두 가지 기술적 기여를 합니다: 즉, 각 훈련 반복에서 가장 구별 가능한 행동 사례를 선택하고 다음 훈련 반복에서 제거하는 반복 훈련 전략인 '승자 제거'를 제안합니다. 이 반복 과정은 기존 접근 방식이 비디오 레이블과 강하게 대응하는 비디오 세그먼트를 선택하는 경향이 있지만 덜 구별되는 다른 비디오 세그먼트를 간과하는 '승자 독점 현상'을 완화합니다. 이 전략을 통해 우리의 네트워크는 가장 구별 가능한 사례뿐만 아니라 덜 구별되는 사례도 위치 지정할 수 있습니다. 승자 제거에서 목표 행동 사례를 더 잘 선택하기 위해, 우리는 클래스 구별 위치 지정 기술을 고안했습니다. 주의 메커니즘과 데이터에서 배운 정보를 이용함으로써, 우리의 기술은 가장 구별 가능한 행동 사례를 효과적으로 식별할 수 있습니다. 이 두 가지 핵심 요소는 프레임 수준 주석을 사용하지 않고 행동을 위치 지정하기 위해 end-to-end 네트워크에 통합됩니다. 광범위한 실험 결과는 우리의 방법이 ActivityNet1.3에서 최첨단 약한 감독 접근 방식을 능가하고, THUMOS14에서 mAP를 16.9%에서 20.5%로 개선함을 보여줍니다. 특히, 약한 비디오 수준 감독에도 불구하고, 우리의 방법은 프레임 수준 감독을 사용하는 방법과 유사한 정확도를 달성합니다.
Zeng et al. (Mon,)는 이 질문을 연구했습니다.