의료 대형 비전-언어 모델(Med-LVLMs)은 임상 응용에서 유망성을 보였지만 사실 오류와 신뢰할 수 없는 출력으로 인해 실제 진단에서 위험을 초래합니다. 검색 보강 생성은 잠재적인 해결책으로 떠올랐지만 현재의 의료 다중 모달 RAG 시스템은 이질적인 소스 전반에서 효과적인 검색을 수행할 수 없습니다. 검색된 보고서의 무관함은 분석의 사실성에 영향을 미치고, 지식 부족은 임상 의사 결정의 신뢰성에 영향을 미칩니다. 이를 해결하기 위해 광범위한 다중 모달 보고서 저장소와 다양한 텍스트 코퍼스를 포함하는 MedAtlas를 구축합니다. 이를 바탕으로 이질적 지식 소스를 통해 Med-LVLMs를 향상시키는 새로운 프레임워크인 HeteroRAG를 제시합니다. 이 프레임워크는 효과적인 보고서 검색을 위한 양식별 CLIP과 다양한 코퍼스를 위한 동적 쿼리 생성을 위한 다중 코퍼스 쿼리 생성기를 도입합니다. 이러한 다각적 소스의 지식을 통합하여 Med-LVLM은 이질적 지식 선호 조정을 통해 훈련되어 교차 모달 및 다원적 지식 정렬을 달성합니다. 12개의 데이터 세트와 3개의 모달리티에 대한 광범위한 실험은 제안된 HeteroRAG가 대부분의 의료 비전 언어 벤치마크에서 최첨단 성능을 달성하며, Med-LVLMs의 사실적 정확성과 신뢰성을 크게 향상시킨다는 것을 보여줍니다.
Chen et al. (Mon,)는 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: