Key points are not available for this paper at this time.
기존의 다중 모달 대규모 언어 모델(MLLM)은 시각적 특징을 대규모 언어 모델(LLM)의 입력 공간과 정렬하여 시각 정보를 인지하고, 시각 토큰과 텍스트 토큰을 연결하여 LLM에 대한 통합 입력 시퀀스를 형성하는 패러다임을 따릅니다. 이러한 방법은 다양한 비전-언어 작업에서 유망한 결과를 보여주지만, 시각 토큰의 사용으로 인해 연장된 입력 시퀀스에서 발생하는 높은 계산 비용으로 제한됩니다. 본 논문에서는 입력 공간 정렬 대신, 시각 정보를 모델 가중치로 표현하는 새로운 매개변수 공간 정렬 패러다임을 제안합니다. 각 입력 이미지에 대해 비전 인코더를 사용하여 시각적 특징을 추출하고, 특징을 지각적 가중치로 변환한 후, 지각적 가중치를 LLM의 가중치와 병합합니다. 이 방법을 통해 LLM의 입력은 시각 토큰을 요구하지 않으며, 입력 시퀀스의 길이를 줄이고 효율성을 크게 향상시킵니다. 이 패러다임에 따라 지각적 가중치 생성기를 갖춘 VLoRA를 제안합니다. 지각적 가중치 생성기는 시각적 특징을 저계수 특성을 가진 지각적 가중치로 변환하도록 설계되었으며, LoRA와 유사한 형태를 나타냅니다. 실험 결과, 우리 VLoRA는 MLLM을 위한 다양한 벤치마크에서 비교 가능한 성능을 달성하면서도 훈련 및 추론에 대한 계산 비용을 크게 줄입니다. 코드와 모델은 오픈 소스로 공개될 예정입니다.
Ma et al. (Thu,)는 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: