멀티모달 변압기에서 데이터, 주의력 및 손실의 역할 분리

Key Points

Key points are not available for this paper at this time.

Abstract

초록 최근 멀티모달 변압기 모델이 인기를 끌고 있으며, 이는 하위 작업에서의 성능이 풍부한 시각-언어 표현을 학습하고 있음을 시사합니다. 제로 샷 이미지 검색 작업에 집중하여, 우리는 학습된 표현의 품질에 영향을 미칠 수 있는 세 가지 중요한 요소를 연구합니다: 사전 훈련 데이터, 주의 메커니즘 및 손실 함수. 여섯 개의 데이터셋에서 모델을 사전 훈련함으로써, 데이터셋 노이즈와 하위 작업에 대한 언어 유사성이 모델 성능의 중요한 지표임을 관찰했습니다. 구조 분석을 통해, 우리는 멀티모달 주의 메커니즘이 모달리티 특화 주의 메커니즘을 가진 더 깊은 모델보다 더 뛰어난 성능을 발휘할 수 있음을 배웠습니다. 마지막으로, 자가 감독 학습 문헌에서 사용되는 성공적인 대조 손실이 멀티모달 변압기에서 사용될 때 유사한 성능 향상을 낳지 않는다는 것을 보여줍니다.

Bookmark

View Full Paper

Bookmark

View Full Paper

멀티모달 변압기에서 데이터, 주의력 및 손실의 역할 분리

Key Points

Abstract

Cite This Study

Also Consider

Also Consider