大型语言模型和提示特异性在生成精神医学多选题中的影响

Key Points

Key points are not available for this paper at this time.

Abstract

大型语言模型（LLMs）的使用可以帮助创建多项选择题（MCQs），以增强精神医学教育。本研究评估了LLMs在生成精神病案例基础的MCQs方面的表现，重点关注所用模型和提示的特异性影响。进行了两个实验。在实验1中，使用了ChatGPT-3.5和ChatGPT-4，并采用了一般性提示。在实验2中，使用了ChatGPT-4o，将通用提示与精神医学特定版本进行了比较。每个实验生成了共90个问题（每种条件45个），在低、中和高难度水平上进行了平衡。一个精神医学教授小组评估了问题的诊断准确性和难度。在实验1中，ChatGPT-3.5和ChatGPT-4显示出与专家的高诊断一致性（κ = 0.889和κ = 0.703），但与预期难度的相关性较低（ρ = 0.104, p = .496; ρ = -0.087, p = .57）。在实验2中，使用ChatGPT-4o的精神医学特定提示产生了更准确的MCQs（κ = 0.731和κ = 0.624），并在预期与专家评分难度之间呈现出更强的相关性（ρ = 0.630, p < .001; ρ = 0.436, p < .001）。它还改善了相关临床信息的包含和诊断多样性。LLMs可以有效生成精神医学MCQs，特别是在受领域特定提示指导时。本研究中开发的精神医学特定提示是通过高质量、临床相关评估支持医学教育的有用工具。

大型语言模型和提示特异性在生成精神医学多选题中的影响

Key Points

Abstract

Cite This Study