Key points are not available for this paper at this time.
텍스트-이미지 인물 검색은 주어진 텍스트 설명 쿼리를 기반으로 대상 인물을 식별하는 것을 목표로 한다. 주요 도전 과제는 시각적 모달리티와 텍스트 모달리티의 매핑을 공통의 잠재 공간으로 학습하는 것이다. 이전 연구들은 시각적 및 텍스트적 특징을 추출하기 위해 별도로 사전 훈련된 일모달 모델을 활용하여 이 문제를 해결하고자 했다. 그러나 이러한 접근법은 다중 모달 데이터를 효과적으로 일치시키는 데 필요한 기본 정렬 기능이 부족하다. 게다가, 이러한 연구는 명시적 부분 정렬을 탐색하기 위해 이전 정보를 사용하여 모달리티 내 정보를 왜곡할 수 있다. 이러한 문제를 완화하기 위해, 우리는 IRRA: 로컬 시각-텍스트 토큰 간의 관계를 학습하고 추가적인 사전 감독 없이 전역 이미지-텍스트 매칭을 향상시키는 교차-모달 암묵적 관계 추론 및 정렬 프레임워크를 제안한다. 구체적으로, 우리는 처음에 마스킹된 언어 모델링 패러다임에서 암묵적 관계 추론 모듈을 설계한다. 이는 교차-모달 다중 모달 상호작용 인코더를 사용하여 시각적 단서를 텍스트 토큰에 통합함으로써 교차-모달 상호작용을 달성한다. 둘째로, 시각적 및 텍스트 임베딩을 전 세계적으로 정렬하기 위해, 유사성 분포 일치를 제안하여 이미지-텍스트 유사성 분포와 정규화된 레이블 일치 분포 간의 KL 발산을 최소화한다. 제안된 방법은 이전 방법과 비교하여 Rank-1 정확도에서 약 3%-9%의 주목할 만한 차이를 보이며 세 개의 공개 데이터셋에서 새로운 최첨단 결과를 달성한다.
Jiang et al. (목,)은 이 질문을 연구했다.