다중 모달 대규모 언어 모델(MLLM)을 새로운 작업에 적응시키는 전통적인 접근 방식은 세밀한 조정에 크게 의존해 왔습니다. 본 논문은 시연 예제를 모델 입력에 직접 삽입하는 훈련 없는 대안인 효율적인 다중 모달 긴 맥락 학습(EMLoC)을 소개합니다. EMLoC는 작업 적응에 대한 더 효율적이고 유연하며 확장 가능한 솔루션을 제공합니다. 매우 긴 입력은 건전한 계산 및 메모리 오버헤드를 초래하므로, EMLoC는 층별 적응 전지 method와 결합된 청크별 압축 메커니즘을 기여합니다. 이는 긴 맥락의 다중 모달 입력을 Compact하고 작업 특정 메모리 표현으로 응축합니다. Jensen-Shannon 발산 제약 하에 각 층에서 토큰을 적응적으로 가지치기하여, 우리의 방법은 성능을 저해하지 않으면서 추론 복잡성을 극적으로 줄입니다. 이 접근 방식은 다중 모달 긴 맥락 학습을 위한 압축 및 가지치기 기술을 원활하게 통합한 첫 번째 사례로, 실제 응용을 위한 확장 가능하고 효율적인 솔루션을 제공합니다. 다양한 비전-언어 벤치마크에 대한 대규모 실험을 통해 EMLoC가 순진한 긴 맥락 접근 방식과 동등하거나 우수한 성능을 달성하는 것을 시연합니다. 우리의 결과는 자원이 제한된 환경에서 다중 모달 모델의 효율적이고 유연한 적응을 위한 혁신적인 프레임워크로서 EMLoC의 잠재력을 강조합니다. 코드는 공개적으로 https://github.com/Zehong-Ma/EMLoC에 있습니다.
Ma et al. (Mon,)는 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: