Key points are not available for this paper at this time.
대규모 비전 언어 모델(LVLMs)은 의료 비주얼 질의 응답 및 이미징 보고서 생성을 포함한 의료 응용 프로그램에 점점 더 중요하게 사용되고 있습니다. 이러한 모델은 기본 대규모 언어 모델(LLMs)의 강력한 능력을 물려받지만, 오류의 여지가 최소인 고위험 의료 상황에서 상당한 우려 사항인 환각에 대한 취약성도 물려받습니다. 그러나 현재 의료 분야에서 환각 탐지 및 평가를 위한 전용 방법이나 기준이 없습니다. 이 격차를 메우기 위해, 우리는 의료 다중 모달 영역 내에서 환각 탐지 및 평가를 위해 특별히 설계된 첫 번째 기준인 Med-HallMark를 소개합니다. 이 기준은 다중 작업 환각 지원, 다각적인 환각 데이터, 및 계층적 환각 분류를 제공합니다. 또한 우리는 환각의 심각성과 유형을 고려하여 LVLM의 환각을 평가하기 위해 설계된 새로운 의료 평가 메트릭인 MediHall Score를 제안합니다. 이를 통해 잠재적인 임상 영향에 대한 세분화된 평가가 가능합니다. 우리는 또한 정확한 환각 탐지를 위해 엔지니어링된 새로운 의료 LVLM인 MediHallDetector를 제안하며, 환각 탐지를 위한 다중 작업 훈련을 사용합니다. 광범위한 실험 평가를 통해 우리는 우리 기준을 사용하여 인기 있는 LVLM의 기준선을 설정합니다. 연구 결과는 MediHall Score가 전통적인 메트릭에 비해 환각의 영향을 보다 미세하게 이해하도록 제공하며, MediHallDetector의 향상된 성능을 입증합니다. 우리는 이 작업이 의료 응용 프로그램에서 LVLM의 신뢰성을 상당히 개선할 수 있기를 바랍니다. 이 작업의 모든 자원은 곧 공개될 예정입니다.
Chen et al. (금요일)은 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: