대규모 언어 모델(LLM)은 방대한 의료 지식을 보유하고 있지만, 실제 임상 진단의 복잡하고 반복적인 과정에 대한 모방에는 종종 어려움을 겪습니다. 이러한 한계를 극복하기 위해, 우리는 임상 진단 절차를 수행하도록 세밀하게 조정된 전문 LLM인 ClinDiag-GPT를 소개합니다. 이 모델은 ClinDiag-Framework 평가 시스템과 4,421개의 실제 사례로 구성된 데이터셋인 ClinDiag-Benchmark의 지원을 받습니다. 평가 결과, GPT-4o-mini, GPT-4o, Claude-3-Haiku, Qwen2.5-72b, Qwen2.5-32b 및 Qwen2.5-14b를 포함한 기존 LLM은 정적 작업에서는 능숙하지만 동적 진단 작업 흐름에서 부족하고 임상 오류를 자주 범하는 것으로 나타났습니다. 반면에, 임상 사례로 훈련된 ClinDiag-GPT는 진단 정확성과 절차 수행력 모두에서 모든 기준 모델을 초과하는 성능을 보여줍니다. 또한, 의사와 ClinDiag-GPT 간의 협업이 독립적으로 작업할 때보다 더 높은 진단 정확성과 효율성을 나타내는 비교 분석 결과가 나타났습니다. 이는 ClinDiag-GPT가 임상 보조 도구로서의 유용성을 보여줍니다.
Chen et al. (수요일)은 이 질문을 연구하였습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: