本研究は、修士レベルの学生のエッセイを採点するツールとしての大規模言語モデル(LLM)の有効性を調査します。政治学のエッセイ60篇をサンプルとして使用し、GPT-4モデルが提案する成績と大学教員によって付与された成績の正確性を比較します。結果は、GPT-4が平均スコアに関する人間の採点基準と一致する一方で、リスク回避的な採点パターンを示し、人間採点者との相互評価信頼性が低いことを示しています。さらに、採点指示の変更(プロンプトエンジニアリング)はAIのパフォーマンスに大きな影響を与えず、GPT-4は主に言語の質といった一般的なエッセイの特性を評価しており、微妙な採点基準に適応していないことを示唆しています。これらの発見は、高等教育におけるAIの可能性と限界の理解に貢献し、その適応能力や特定の教育評価要件への感受性を向上させるためのさらなる開発の必要性を強調しています。
マグナス・ルンドグレン(Mon、)がこの問題を研究しました。