October 15, 2019

이미지-텍스트 매칭을 위한 프래그먼트 자기 주의 임베딩 학습

YWYiling WuNational Chung Cheng University SWShuhui WangYunnan Agricultural University GSGuoli SongPeng Cheng Laboratory

Key Points

Key points are not available for this paper at this time.

Abstract

이미지-텍스트 매칭 작업에서 좋은 매칭 품질의 핵심은 이미지와 텍스트의 프래그먼트 간의 풍부한 컨텍스트 종속성을 포착하는 것입니다. 그러나 이전 연구들은 단순히 가능한 모든 이미지 영역과 단어 쌍의 유사성을 집계하거나 다단계 교차 주의를 통해 서로의 맥락에서 이미지 영역과 단어에 주의를 기울이는데, 이는 모든 이미지 영역과 단어 쌍 간의 철저한 유사성 계산을 요구합니다. 본 논문에서는 자기 주의 메커니즘을 통해 이미지나 텍스트의 프래그먼트 관계를 활용하기 위해 자기 주의 임베딩(SAEM)을 제안하고, 프래그먼트 정보를 시각적 및 텍스트 임베딩으로 집계합니다. 구체적으로 SAEM은 바닥에서 위로 향하는 주의 기반으로 두드러진 이미지 영역을 추출하고, WordPiece 토큰을 문장 프래그먼트로 사용합니다. 자기 주의 레이어는 각각 이미지와 텍스트에서 미세하고 세부적인 프래그먼트 관계를 모델링하도록 구축되어 있으며, 다중 헤드 자기 주의 하위 레이어와 위치 기반 피드 포워드 네트워크 하위 레이어로 구성됩니다. 결과적으로 프래그먼트 자기 주의 메커니즘은 프래그먼트 관계를 발견하고 이미지 또는 문장에서 의미적으로 두드러진 영역을 식별하며, 이들의 상호작용을 보다 정확하게 포착할 수 있습니다. 시각적 및 텍스트 양식에서 미세한 프래그먼트 관계를 동시에 활용하여, 우리의 방법은 이미지와 텍스트를 나타내기 위한 의미적으로 일관된 임베딩을 생산하며, Flickr30K 및 MSCOCO 데이터셋에서 유망한 이미지-텍스트 매칭 정확도와 높은 효율성을 보여줍니다.

AI에게 질문

Bookmark

View Full Paper