Key points are not available for this paper at this time.
밀집 비디오 캡셔닝에 대한 연구에 많은 관심이 집중되고 있으며, 이는 잘리지 않은 비디오 내의 모든 이벤트를 자동으로 위치 지정하고 캡션을 달기 위함입니다. 여러 연구들은 이벤트 위치 지정과 이벤트 캡셔닝의 상호 작업 관계를 고려하여 밀집 비디오 캡셔닝을 멀티태스킹 문제로 설계하는 방법을 소개합니다. 하지만 시각적 입력만으로 두 작업을 모두 처리하는 것은 의미론적 내용 부족으로 인해 도전적입니다. 이 연구에서는 인간의 인지 정보 처리에서 영감을 받아 새로운 프레임워크를 제안하여 이를 해결합니다. 우리의 모델은 사전 지식을 통합하기 위해 외부 메모리를 활용합니다. 메모리 검색 방법은 크로스 모달 비디오-텍스트 매칭을 통해 제안됩니다. 검색된 텍스트 피처를 효과적으로 통합하기 위해 시각적 및 텍스트 교차 주의 모듈이 포함된 다재다능한 인코더와 디코더가 설계되었습니다. ActivityNet 캡션 및 YouCook2 데이터셋에서 제안된 방법의 효과를 보여주기 위한 비교 실험이 수행되었습니다. 실험 결과는 대규모 비디오 데이터셋에서의 광범위한 사전 훈련 없이도 모델의 유망한 성능을 보여줍니다.
김 외 (목요일), 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: