Key points are not available for this paper at this time.
이미지의 내용을 자동으로 설명하는 것은 컴퓨터 비전과 자연어 처리를 연결하는 인공지능의 근본적인 문제입니다. 본 논문에서는 최신 컴퓨터 비전 및 기계 번역의 발전을 결합한 심층 순환 아키텍처 기반의 생성 모델을 제시하며, 이 모델은 이미지를 설명하는 자연스러운 문장을 생성하는데 사용할 수 있습니다. 이 모델은 학습 이미지에 따라 목표 설명 문장의 가능성을 극대화하도록 훈련됩니다. 여러 데이터셋에서의 실험은 모델의 정확성과 이미지 설명에서 배운 언어의 유창성을 보여줍니다. 우리의 모델은 종종 상당히 정확하며, 이를 정성적 및 정량적으로 검증합니다. 예를 들어, 현재 상태의 최고 BLEU-1 점수(높을수록 좋음)가 Pascal 데이터셋에서 25인 반면, 우리의 접근법은 59로, 인간 성능 약 69와 비교됩니다. 또한 Flickr30k에서 BLEU-1 점수가 56에서 66으로, SBU에서 19에서 28로 향상되었음을 보여줍니다. 마지막으로, 새로 발표된 COCO 데이터셋에서 BLEU-4 점수 27.7을 달성하며, 이는 현재 상태의 최고입니다.
Vinyals et al. (Mon,)은 이 질문을 연구했습니다.