Key points are not available for this paper at this time.
실제 세계의 비디오는 종종 복잡한 동력을 가지고 있으며, 개방형 비디오 설명을 생성하는 방법은 시간 구조에 민감해야 하며 입력(프레임의 시퀀스)과 출력(단어의 시퀀스)의 가변 길이를 허용해야 합니다. 이 문제에 접근하기 위해, 우리는 비디오에 대한 캡션을 생성하기 위한 새로운 종단 간 시퀀스 투 시퀀스 모델을 제안합니다. 이를 위해 우리는 반복 신경망, 특히 LSTM을 활용하며, 이는 이미지 캡션 생성에서 최첨단 성능을 입증했습니다. 우리의 LSTM 모델은 비디오-문장 쌍으로 학습되며 비디오 클립의 사건을 설명하기 위해 비디오 프레임의 시퀀스를 단어의 시퀀스에 연관시키는 방법을 배웁니다. 우리의 모델은 자연스럽게 프레임의 시퀀스의 시간 구조와 생성된 문장의 시퀀스 모델, 즉 언어 모델을 학습할 수 있습니다. 우리는 여러 가지 시각적 특징을 활용하는 모델의 변형을 표준 YouTube 비디오 세트와 두 개의 영화 설명 데이터 세트(M-VAD 및 MPII-MD)에서 평가합니다.
Venugopalan et al. (Sun,)은 이 질문을 연구했습니다.