Key points are not available for this paper at this time.
大型语言模型(LLMs)的使用可以帮助创建多项选择题(MCQs),以增强精神医学教育。本研究评估了LLMs在生成精神病案例基础的MCQs方面的表现,重点关注所用模型和提示的特异性影响。进行了两个实验。在实验1中,使用了ChatGPT-3.5和ChatGPT-4,并采用了一般性提示。在实验2中,使用了ChatGPT-4o,将通用提示与精神医学特定版本进行了比较。每个实验生成了共90个问题(每种条件45个),在低、中和高难度水平上进行了平衡。一个精神医学教授小组评估了问题的诊断准确性和难度。在实验1中,ChatGPT-3.5和ChatGPT-4显示出与专家的高诊断一致性(κ = 0.889和κ = 0.703),但与预期难度的相关性较低(ρ = 0.104, p = .496; ρ = -0.087, p = .57)。在实验2中,使用ChatGPT-4o的精神医学特定提示产生了更准确的MCQs(κ = 0.731和κ = 0.624),并在预期与专家评分难度之间呈现出更强的相关性(ρ = 0.630, p < .001; ρ = 0.436, p < .001)。它还改善了相关临床信息的包含和诊断多样性。LLMs可以有效生成精神医学MCQs,特别是在受领域特定提示指导时。本研究中开发的精神医学特定提示是通过高质量、临床相关评估支持医学教育的有用工具。
Rojo-Bofill等(周二)研究了这个问题。