What question did this study set out to answer?

本研究はスペイン語ニュース記事からの5W1H情報抽出のために大規模言語モデルを体系的にベンチマークすることを目的としています。

February 5, 2026Open Access

5W1H抽出評価のためのLLM-as-a-Judgeモデルのベンチマーク

Key Points

本研究はスペイン語ニュース記事からの5W1H情報抽出のために大規模言語モデルを体系的にベンチマークすることを目的としています。
GPT、Claude、Geminiを含む複数の大規模言語モデルをベンチマークしました。
事実の正確性、完全性、関連性と簡潔さ、明確さと読みやすさ、原典への忠実さ、全体的一貫性の6つの品質基準に基づいてモデルを評価しました。
2つのスペイン語コーパスにわたりジャッジ間の合意およびスコア分布の傾向を分析しました。
人間の専門家と共にメタ評価を実施し、LLMの評価とジャーナリズム判断を比較しました。
全モデルがすべての指標で90%以上の整合性レベルを達成しました。
Claude Sonnet 4.5がグローバル判断受容率99.79%で最も正確な評価者として特定されました。
メタ評価ではκ=0.6739という実質的な評価者間合意が認められました。

Abstract

5W1H（誰が、何を、いつ、どこで、なぜ、どのように）情報抽出システムの評価は依然として困難であり、ROUGEやBLEUのような従来の情報検索指標は意味的な正確性や物語の一貫性を捉えきれません。LLM-as-a-Judgeパラダイムは有望な代替手段を提供しますが、このタスクにおけるジャッジモデルの体系的な比較は不足しています。本研究では、GPT、Claude、Geminiなどの最先端モデルを含む複数の大規模言語モデルを、スペイン語ニュース記事からの5W1H抽出の評価者としてベンチマークしました。事実の正確性、完全性、関連性と簡潔さ、明確さと読みやすさ、原典への忠実さ、全体的一貫性の6つの品質基準にわたりジャッジの性能を評価しました。2つのスペイン語コーパス（BASSEとFLARES）を用い、モデル間の合意、スコア分布の傾向、基準ごとの変動、評価質と計算コストの関係を分析しました。どの基準がモデル間で一貫した合意を示すか、またどの基準がジャッジ選択に最も敏感かを特定しました。本研究の主な貢献は、専門家のジャーナリズムの判断と比較検証された、スペイン語における5W1H抽出評価のためのLLM-as-a-Judgeモデルの初の体系的ベンチマークを提供したことです。結果は、評価されたすべてのモデルが全指標で90%以上の整合性を達成していることを示しました。特にClaude Sonnet 4.5はグローバル判断受容率（JAR）99.79%で最も正確な評価者として浮上しました。さらに、人間の専門家によるメタ評価では、κ=0.6739という実質的な評価者間合意が得られました。最後に、タスク要件やリソース制約に基づいたジャッジモデル選択のための推奨を提供し、情報抽出タスクのLLMベース評価パイプライン実装に実践的な指針をもたらしました。

Read Full Paperexternally

AIに質問

Bookmark

View Full Paper