What question did this study set out to answer?

대규모 언어 모델의 임상 시나리오에서 진단 능력을 향상시키는 것이 목표입니다.

March 28, 2026Open Access

임상 진단에 기반한 대규모 언어 모델

Key Points

대규모 언어 모델의 임상 시나리오에서 진단 능력을 향상시키는 것이 목표입니다.
진단 작업을 위해 조정된 전문 LLM인 ClinDiag-GPT 개발
평가를 위해 ClinDiag-Framework와 ClinDiag-Benchmark 활용
실제 임상 사례에서 ClinDiag-GPT와 기존 LLM의 비교 분석
ClinDiag-GPT는 진단 정확성에서 기준 모델을 초과함
ClinDiag-GPT와의 협업이 진단 효율성을 증가시킴
기존 LLM은 동적 진단 작업 흐름에서 한계를 보였음

Abstract

대규모 언어 모델(LLM)은 방대한 의료 지식을 보유하고 있지만, 실제 임상 진단의 복잡하고 반복적인 과정에 대한 모방에는 종종 어려움을 겪습니다. 이러한 한계를 극복하기 위해, 우리는 임상 진단 절차를 수행하도록 세밀하게 조정된 전문 LLM인 ClinDiag-GPT를 소개합니다. 이 모델은 ClinDiag-Framework 평가 시스템과 4,421개의 실제 사례로 구성된 데이터셋인 ClinDiag-Benchmark의 지원을 받습니다. 평가 결과, GPT-4o-mini, GPT-4o, Claude-3-Haiku, Qwen2.5-72b, Qwen2.5-32b 및 Qwen2.5-14b를 포함한 기존 LLM은 정적 작업에서는 능숙하지만 동적 진단 작업 흐름에서 부족하고 임상 오류를 자주 범하는 것으로 나타났습니다. 반면에, 임상 사례로 훈련된 ClinDiag-GPT는 진단 정확성과 절차 수행력 모두에서 모든 기준 모델을 초과하는 성능을 보여줍니다. 또한, 의사와 ClinDiag-GPT 간의 협업이 독립적으로 작업할 때보다 더 높은 진단 정확성과 효율성을 나타내는 비교 분석 결과가 나타났습니다. 이는 ClinDiag-GPT가 임상 보조 도구로서의 유용성을 보여줍니다.

AI에게 질문

Bookmark

View Full Paper