What type of study is this?

October 16, 2025

GPTベースの創造性評価：人間の専門家との比較に焦点を当てて

Key Points

AIモデルは専門家の評価と同等の創造性評価を提供し、より広範な使用の可能性を示しています。
本研究は、99人の中学生が関与するタスクに対してGPT-4.1およびGPT-4oモデルを使用した評価を利用しました。
合意測定（ピアソンのrやクラス内相関を含む）を使用して、AI評価と専門家評価を比較しました。
AI評価の最適な設定を確立することで、品質を損なうことなく創造性評価の効率を高めることができるかもしれません。

Abstract

生成的人工知能（AI）の開発は、特に創造的成果物を効果的に評価する可能性に関して創造性研究を大きく変革しています。創造的アウトプットの評価は、従来の方法として専門家ベースのコンセンサル評価技術（CAT）に依存してきました。とはいえ、CATは高い信頼性を確保するためにかなりの時間とリソースを必要とします。このため、専門家による評価を補完または代替できるAI駆動の評価方法を探求する必要が生じています。本研究では、99人の中学生が行った創造的なタイトル生成タスクにおいて、GPT-4.1およびGPT-4oというマルチモーダル大規模言語モデル（LLM）を使用した創造性評価を、6人の創造性専門家によるCAT評価と比較しました。具体的には、モデル、プロンプトタイプ、温度の異なる条件下で評価を繰り返し実施しました。GPT評価の合意は、パーセンテージ合意とクラス内相関（ICC）によって測定され、一方でCAT評価との一貫性は、ピアソンのr、スピアマンのrho、および二乗平均平方根誤差（RMSE）を使用して検討されました。分析結果は、CATと一致する最適なGPTモデル、プロンプト、および温度設定を明らかにし、GPTベースの創造性評価のための実用的なガイドラインを提供しました。本研究は、CAT原則に沿ったAIベースの評価を設計および実施するための基礎的な洞察を提供します。

AIに質問

Bookmark