5W1H(誰が、何を、いつ、どこで、なぜ、どのように)情報抽出システムの評価は依然として困難であり、ROUGEやBLEUのような従来の情報検索指標は意味的な正確性や物語の一貫性を捉えきれません。LLM-as-a-Judgeパラダイムは有望な代替手段を提供しますが、このタスクにおけるジャッジモデルの体系的な比較は不足しています。本研究では、GPT、Claude、Geminiなどの最先端モデルを含む複数の大規模言語モデルを、スペイン語ニュース記事からの5W1H抽出の評価者としてベンチマークしました。事実の正確性、完全性、関連性と簡潔さ、明確さと読みやすさ、原典への忠実さ、全体的一貫性の6つの品質基準にわたりジャッジの性能を評価しました。2つのスペイン語コーパス(BASSEとFLARES)を用い、モデル間の合意、スコア分布の傾向、基準ごとの変動、評価質と計算コストの関係を分析しました。どの基準がモデル間で一貫した合意を示すか、またどの基準がジャッジ選択に最も敏感かを特定しました。本研究の主な貢献は、専門家のジャーナリズムの判断と比較検証された、スペイン語における5W1H抽出評価のためのLLM-as-a-Judgeモデルの初の体系的ベンチマークを提供したことです。結果は、評価されたすべてのモデルが全指標で90%以上の整合性を達成していることを示しました。特にClaude Sonnet 4.5はグローバル判断受容率(JAR)99.79%で最も正確な評価者として浮上しました。さらに、人間の専門家によるメタ評価では、κ=0.6739という実質的な評価者間合意が得られました。最後に、タスク要件やリソース制約に基づいたジャッジモデル選択のための推奨を提供し、情報抽出タスクのLLMベース評価パイプライン実装に実践的な指針をもたらしました。
Cassola-Bacallaoら(Tue、)はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: