June 24, 2024Open Access

学生評価における大規模言語モデル：ChatGPTと人間の採点者の比較

Key Points

GPT-4はリスク回避的な採点パターンを示し、微妙な基準に適応する限界を示しています。
GPT-4と人間の採点者の間の相互評価の信頼性は低く、AI評価の課題を強調しています。
採点方法の評価には、60の政治学エッセイが含まれ、GPT-4と人間の教育者によって同様に評価され、高等教育の文脈における採点結果の精度の比較が行われました。これにより、従来の採点方法と比較して教育環境におけるAIの応用が改善される可能性があります。

Abstract

本研究は、修士レベルの学生のエッセイを採点するツールとしての大規模言語モデル（LLM）の有効性を調査します。政治学のエッセイ60篇をサンプルとして使用し、GPT-4モデルが提案する成績と大学教員によって付与された成績の正確性を比較します。結果は、GPT-4が平均スコアに関する人間の採点基準と一致する一方で、リスク回避的な採点パターンを示し、人間採点者との相互評価信頼性が低いことを示しています。さらに、採点指示の変更（プロンプトエンジニアリング）はAIのパフォーマンスに大きな影響を与えず、GPT-4は主に言語の質といった一般的なエッセイの特性を評価しており、微妙な採点基準に適応していないことを示唆しています。これらの発見は、高等教育におけるAIの可能性と限界の理解に貢献し、その適応能力や特定の教育評価要件への感受性を向上させるためのさらなる開発の必要性を強調しています。

Read Full Paperexternally

Bookmark

View Full Paper

Cite This Study

マグナス・ルンドグレン（Mon、）がこの問題を研究しました。

synapsesocial.com/papers/68e63804b6db6435875ca025 https://doi.org/https://doi.org/10.48550/arxiv.2406.16510

Bookmark

View Full Paper