Key points are not available for this paper at this time.
밀집 이벤트 캡셔닝은 비디오에 포함된 모든 관심 이벤트를 감지하고 설명하는 것을 목표로 합니다. 이 분야의 높은 발전에도 불구하고, 기존 방법들은 밀집 시간 주석을 사용하는 방법으로 이 작업을 해결하며, 이는 매우 자원을 소모합니다. 본 논문은 새로운 문제를 제기합니다: 약한 지도 밀집 이벤트 캡셔닝, 이는 모델 훈련을 위한 시간 세그먼트 주석을 요구하지 않습니다. 우리의 해결책은 일대일 대응 가정에 기반합니다. 각 캡션은 하나의 시간 세그먼트를 설명하며, 각 시간 세그먼트는 하나의 캡션을 가지고 있습니다. 이는 현재의 벤치마크 데이터셋과 대부분의 실제 사례에 해당합니다. 우리는 문제를 이벤트 캡셔닝과 문장 위치 지정이라는 이중 문제 쌍으로 분해하고, 모델을 훈련하기 위한 사이클 시스템을 제시합니다. 광범위한 실험 결과를 제공하여 우리 모델의 밀집 이벤트 캡셔닝 및 비디오의 문장 위치 지정 능력을 입증합니다.
Duan et al. (Mon,)이 이 문제를 연구했습니다.