What is the clinical evidence from this study?

Study design: 기타. Population: 정신 질환 (우울증, PTSD) (n=306). Intervention: Med-PaLM 2 vs. 인간 임상 평가자. Primary outcome: 우울 점수 예측 (PHQ-8) (p=0.23).

August 3, 2023Open Access

대규모 언어 모델의 정신 기능 측정 능력

Key Result

Med-PaLM 2는 임상 인터뷰에서 80-84%의 정확도로 우울 점수를 예측하였으며, 인간 임상 평가자와 통계적으로 구별할 수 없는 점수를 생성하였습니다.

Study Design

Type

기타 (n=306)

Structured PICO

Med-PaLM 2는 인간 평가자와 비교할 때 클리닉 인터뷰 및 사례 설명으로부터 정신과 기능과 진단을 정확히 예측합니까?

Population

n=145 우울증 평가(PHQ-8)와 n=115 PTSD 평가(PCL-C) 및 n=46 DSM-5 임상 사례 연구로 구성된 DAIC-WOZ 코퍼스의 고유병율/고공존 장애에서 나왔습니다.

Intervention

Med-PaLM 2(의학 지식에 대해 훈련된 대규모 언어 모델)는 환자 인터뷰 및 클리닉 설명에서 예상 임상 점수와 진단을 추출하도록 요구되었습니다.

Comparator

인간 임상 평가자와 객관적 진단인 DSM-5 진단.

Outcome

우울증(PHQ-8) 및 PTSD(PCL-C) 점수 및 임상 기준의 예측 정확도, 및 진단 분류의 정확도.

Med-PaLM 2는 클리닉 인터뷰에서 우울증의 심각성을 정확하게 평가할 수 있는 emergent capability를 보여주지만, PTSD와 같은 다른 정신과 조건에서 성능이 다를 수 있습니다.

Main Result

Absolute Event Rate: 8.5% vs 7.94%

p-value: p=0.23

Limitations

Relatively small datasets and limited use cases
Limited to English only
Demographically narrow data sources for testing
Inconsistent performance in identifying comorbidities and diagnostic modifiers

Abstract

현재 연구는 대규모 의학 지식 코퍼스(메드팔름 2)에서 명시적으로 훈련된 대규모 언어 모델(LLMs)이 환자 인터뷰와 임상 설명에서 정신 기능을 예측할 수 있는 능력을 조사합니다. 이를 평가하기 위해 n = 145 우울증 및 n = 115 PTSD 평가와 n = 46 임상 사례 연구가 높은 유병률/고동반 질환(우울, 불안, 정신병, 외상 및 스트레스, 중독성 장애)에서 분석되었으며, 추정을 위한 프롬프트를 사용하여 임상 점수와 진단을 추출했습니다. 결과는 Med-PaLM 2가 다양한 정신 질환에 걸쳐 정신 기능을 평가할 수 있음을 보여주며 가장 우수한 성과는 표준화된 평가를 기반으로 한 우울 점수 예측(정확도 범위= 0.80 - 0.84)으로, 이는 인간 임상 평가자와 통계적으로 구별할 수 없었습니다 t(1,144) = 1.20; p = 0.23. 결과는 일반 임상 언어 모델이 환자와 임상의로부터 기능에 대한 자유로운 설명을 바탕으로 정신적 위험을 유연하게 예측할 수 있는 잠재력을 보여줍니다.

Bookmark

View Full Paper