Med-PaLM 2는 임상 인터뷰에서 80-84%의 정확도로 우울 점수를 예측하였으며, 인간 임상 평가자와 통계적으로 구별할 수 없는 점수를 생성하였습니다.
기타 (n=306)
Med-PaLM 2는 인간 평가자와 비교할 때 클리닉 인터뷰 및 사례 설명으로부터 정신과 기능과 진단을 정확히 예측합니까?
Med-PaLM 2는 클리닉 인터뷰에서 우울증의 심각성을 정확하게 평가할 수 있는 emergent capability를 보여주지만, PTSD와 같은 다른 정신과 조건에서 성능이 다를 수 있습니다.
Absolute Event Rate: 8.5% vs 7.94%
p-value: p=0.23
현재 연구는 대규모 의학 지식 코퍼스(메드팔름 2)에서 명시적으로 훈련된 대규모 언어 모델(LLMs)이 환자 인터뷰와 임상 설명에서 정신 기능을 예측할 수 있는 능력을 조사합니다. 이를 평가하기 위해 n = 145 우울증 및 n = 115 PTSD 평가와 n = 46 임상 사례 연구가 높은 유병률/고동반 질환(우울, 불안, 정신병, 외상 및 스트레스, 중독성 장애)에서 분석되었으며, 추정을 위한 프롬프트를 사용하여 임상 점수와 진단을 추출했습니다. 결과는 Med-PaLM 2가 다양한 정신 질환에 걸쳐 정신 기능을 평가할 수 있음을 보여주며 가장 우수한 성과는 표준화된 평가를 기반으로 한 우울 점수 예측(정확도 범위= 0.80 - 0.84)으로, 이는 인간 임상 평가자와 통계적으로 구별할 수 없었습니다 t(1,144) = 1.20; p = 0.23. 결과는 일반 임상 언어 모델이 환자와 임상의로부터 기능에 대한 자유로운 설명을 바탕으로 정신적 위험을 유연하게 예측할 수 있는 잠재력을 보여줍니다.
Galatzer‐Levy et al. (Thu,) conducted a other in Psychiatric disorders (Depression, PTSD) (n=306). Med-PaLM 2 vs. Human clinical raters was evaluated on Prediction of depression scores (PHQ-8) (p=0.23). Med-PaLM 2 predicted depression scores from clinical interviews with 80-84% accuracy, yielding scores statistically indistinguishable from human clinical raters.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: