Key points are not available for this paper at this time.
최근 조사에 따르면, 대형 언어 모델(LLMs), 특히 GPT-4는 일반 자연어 처리(NLP) 작업에서 놀라운 능력을 발휘할 뿐만 아니라 다양한 전문 및 학문적 벤치마크에서 인간 수준의 성능을 보여줍니다. 그러나 GPT-4가 실제 응용 프로그램에서 직접 사용될 수 있으며 전문 분야에서 전통적인 인공지능(AI) 도구를 대체할 수 있는지는 추가적인 실험적 검증이 필요합니다. 본 논문에서는 GPT-4와 같은 LLM이 덤티아 진단에서 전통적인 AI 도구를 능가할 가능성을 탐구합니다. 임상 환경에서의 진단 정확성을 검토하기 위해 GPT-4와 전통적인 AI 도구 간의 포괄적인 비교를 실시합니다. 두 개의 실제 임상 데이터 세트에 대한 실험 결과는 LLM이 GPT-4와 같은 덤티아 진단의 미래 발전 가능성을 보여줌에도 불구하고, 현재로서는 전통적인 AI 도구의 성능을 능가하지 않음을 나타냅니다. GPT-4의 해석 가능성과 신뢰성도 실제 의사와의 비교를 통해 평가됩니다. 우리는 현재 상태에서의 GPT-4의 한계를 논의하고 덤티아 진단에서 GPT-4를 향상시키기 위한 미래 연구 방향을 제안합니다.
Wang et al. (금요일)은 이 질문을 연구했습니다.