Key points are not available for this paper at this time.
오디오 설명(AD)은 영화에 대한 언어적 설명을 제공하고 시각 장애인이 또래와 함께 영화를 따라갈 수 있도록 합니다. 이러한 설명은 본래 시각적이므로 컴퓨터 비전 및 계산 linguistics에 흥미로운 데이터 소스를 형성합니다. 본 연구에서는 전체 길이의 영화에 시간적으로 정렬된 필기된 AD를 포함하는 새로운 데이터 세트를 제안합니다. 또한 이전 작업에서 사용된 영화 대본을 수집하고 정렬하여 두 설명 소스를 비교합니다. 우리는 200편의 영화에서 비디오 클립과 정렬된 128,118개의 문장으로 구성된 병렬 말뭉치가 포함된 대규모 영화 설명 챌린지(LSMDC)를 소개합니다(총 약 150시간의 비디오). 챌린지의 목표는 영화 클립에 대한 설명을 자동으로 생성하는 것입니다. 먼저 비디오 설명 생성을 위한 다양한 접근법을 벤치마킹하여 데이터 세트를 특징짓습니다. AD와 대본을 비교한 결과, AD는 더 시각적이며 영화 제작 전 작성된 대본에 따라 발생해야 할 내용보다 실제로 보여주는 내용을 정확히 설명하는 것을 알 수 있었습니다. 더 나아가, 우리는 ICCV 2015와 ECCV 2016에서 조직된 챌린지에 참여한 여러 팀의 결과를 제시하고 비교합니다.
Rohrbach 외(수요일)는 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: