生成的人工知能(AI)の開発は、特に創造的成果物を効果的に評価する可能性に関して創造性研究を大きく変革しています。創造的アウトプットの評価は、従来の方法として専門家ベースのコンセンサル評価技術(CAT)に依存してきました。とはいえ、CATは高い信頼性を確保するためにかなりの時間とリソースを必要とします。このため、専門家による評価を補完または代替できるAI駆動の評価方法を探求する必要が生じています。本研究では、99人の中学生が行った創造的なタイトル生成タスクにおいて、GPT-4.1およびGPT-4oというマルチモーダル大規模言語モデル(LLM)を使用した創造性評価を、6人の創造性専門家によるCAT評価と比較しました。具体的には、モデル、プロンプトタイプ、温度の異なる条件下で評価を繰り返し実施しました。GPT評価の合意は、パーセンテージ合意とクラス内相関(ICC)によって測定され、一方でCAT評価との一貫性は、ピアソンのr、スピアマンのrho、および二乗平均平方根誤差(RMSE)を使用して検討されました。分析結果は、CATと一致する最適なGPTモデル、プロンプト、および温度設定を明らかにし、GPTベースの創造性評価のための実用的なガイドラインを提供しました。本研究は、CAT原則に沿ったAIベースの評価を設計および実施するための基礎的な洞察を提供します。
Lee et al. (Tue,)はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: