Key points are not available for this paper at this time.
전 세계에서 수행되는 CT 검사의 양이 매년 증가하고 있으며, 이는 방사선 전문의의 소진을 초래하고 있습니다. 대형 언어 모델(LLM)은 그들의 부담을 줄일 잠재력이 있지만, 임상에서의 채택은 방사선 전문의의 신뢰와 생성된 내용의 용이한 평가에 달려 있습니다. 현재, 흉부 방사선 사진에 대해 생성된 보고서를 평가하기 위한 자동화된 방법이 많이 존재하지만, CT에 대해서는 현재 그런 접근 방식이 없습니다. 본 논문에서는 CT 기반 이상 소견의 정확한 요약 생성을 위한 비전-언어 LLM의 능력을 판단하기 위한 새로운 평가 프레임워크를 제안합니다. 이상 소견(예: 병변)을 포함하는 CT 슬라이스가 비전 기반 LLM(GPT-4V, LLaVA-Med, RadFM)에 입력되었고, 이는 이상 소견의 예측된 특성에 대한 자유 텍스트 요약을 생성했습니다. 다음으로, GPT-4 모델이 요약을 특정 측면(신체 부위, 위치, 유형, 속성)으로 분해하고, 실제 데이터와 비교하여 특성을 자동으로 평가하였으며, 임상적 관련성과 사실적 정확도를 기반으로 각 측면에 대한 점수를 생성했습니다. 이 점수는 임상의로부터 얻은 점수와 대조되었고, 높은 상관관계(85%, p < .001)가 관찰되었습니다. GPT-4V가 우리의 평가에서 다른 모델보다 우수했지만, 여전히 전반적인 개선이 필요합니다. 우리의 평가 방법은 가장 많은 향상이 필요한 특정 분야에 대한 귀중한 통찰력을 제공하여 향후 이 분야 발전을 안내합니다.
Zhu et al. (금요일)이 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: