Key points are not available for this paper at this time.
우리는 분포 외 시나리오와 도메인 특정 작업에서의 포괄적인 평가를 통해 현재 다중 모달 대형 언어 모델(MLLM)의 일반화 경계를 조사합니다. 합성 이미지, 실제 분포 변화 및 의료 및 분자 영상과 같은 전문 데이터셋에서의 제로 샷 일반화를 평가합니다. 실증 결과는 MLLM이 일반적인 훈련 도메인을 넘어서는 일반화에 어려움을 겪고 있으며, 적응 없이 직접적인 적용에 제한이 있음을 나타냅니다. 신뢰할 수 없는 성능의 원인을 이해하기 위해 세 가지 가설을 분석합니다: 의미적 오해, 시각적 특징 추출 부족, 및 매핑 결함. 결과는 매핑 결함이 주요 장애물임을 확인합니다. 이 문제를 해결하기 위해 우리는 맥락 내 학습(ICL)이 MLLM의 일반화를 크게 향상시킬 수 있음을 보여 주고, 일반화 장벽을 극복할 수 있는 새로운 길을 열어줍니다. 우리는 또한 분포 변화 하에서 ICL의 견고성을 탐구하고, 도메인 변화, 레이블 변화 및 맥락 내 예제와 테스트 데이터 간의 허위 상관 관계 변화에 대한 취약성을 보여줍니다.
Zhang et al. (금요일) 이 질문을 연구하였습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: