Key points are not available for this paper at this time.
초록 최근 멀티모달 변압기 모델이 인기를 끌고 있으며, 이는 하위 작업에서의 성능이 풍부한 시각-언어 표현을 학습하고 있음을 시사합니다. 제로 샷 이미지 검색 작업에 집중하여, 우리는 학습된 표현의 품질에 영향을 미칠 수 있는 세 가지 중요한 요소를 연구합니다: 사전 훈련 데이터, 주의 메커니즘 및 손실 함수. 여섯 개의 데이터셋에서 모델을 사전 훈련함으로써, 데이터셋 노이즈와 하위 작업에 대한 언어 유사성이 모델 성능의 중요한 지표임을 관찰했습니다. 구조 분석을 통해, 우리는 멀티모달 주의 메커니즘이 모달리티 특화 주의 메커니즘을 가진 더 깊은 모델보다 더 뛰어난 성능을 발휘할 수 있음을 배웠습니다. 마지막으로, 자가 감독 학습 문헌에서 사용되는 성공적인 대조 손실이 멀티모달 변압기에서 사용될 때 유사한 성능 향상을 낳지 않는다는 것을 보여줍니다.
Hendricks et al. (금요일) 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: