Key points are not available for this paper at this time.
최근 대규모 다중 모달 모델(LMM)은 시각적 지침 튜닝에서 고무적인 진행을 보여주었습니다. 본 논문에서는 LLaVA 프레임워크 하에 통제된 설정에서 LMM의 설계 선택을 조사하는 최초의 체계적인 연구를 제시합니다. LLaVA의 완전 연결된 비전-언어 커넥터가 놀라울 정도로 강력하고 데이터 효율적임을 보여줍니다. LLaVA에 간단한 수정을 가하여, 즉 MLP 프로젝션과 응답 형식 프롬프트가 있는 학문적 과제 중심의 VQA 데이터를 추가하여, 우리는 11개 벤치마크에서 최첨단 성과를 달성하는 더욱 강력한 기준선을 설정했습니다. 우리의 최종 13B 체크포인트는 단지 1.2M의 공개 데이터만을 사용하며, 단일 8-AI00 노드에서 약 1일 만에 전체 훈련을 완료합니다. 더욱이, 우리는 LMM에서의 높은 해상도 입력으로의 확장, 구문적 능력, 모델 환각 등 열린 문제의 초기 탐색을 제시합니다. 우리는 이것이 최첨단 LMM 연구를 더 접근 가능하게 만들기를 희망합니다. 코드와 모델은 공개될 예정입니다.
Liu et al. (Sun,)은 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: