What type of study is this?

This is a Quantitative Study study.

October 12, 2025Open Access

LLMは言語間で同じ常識的能力を示しますか？

Key Points

結果は、英語と比較して資源が限られた言語におけるパフォーマンスが著しく低いことを示しています。
評価は、能力を評価するために人間のアノテーションとともにLLMを審査する手法を利用しています。
MULTICOMベンチマークは、多言語常識生成のための新しい評価方法を導入します。
知見は、言語間で常識的知識を生成する際の大規模言語モデルの限界を強調します。

Abstract

本稿では、大規模言語モデル（LLM）の多言語常識生成能力を探求します。この調査を促進するために、英語、スペイン語、オランダ語、バレンシア語の4つの言語に拡張された新しいベンチマーク、MULTICOMを紹介します。この課題は、与えられた3つの単語の組を含む常識的な文を生成することです。LLaMA、Qwen、Gemma、EuroLLM、Salamandraを含むさまざまなオープンソースのLLMをこのベンチマークで評価しました。評価は、自動メトリクス、LLMを審査する手法（PrometheusおよびJudgeLMを使用）、および人間のアノテーションを組み合わせています。結果は常に英語でのパフォーマンスが優れており、リソースが限られた言語では著しく低いパフォーマンスを示しています。文脈のサポートは混合結果をもたらしますが、過小評価された言語には利益をもたらす傾向があります。これらの発見は、多言語常識生成におけるLLMの現在の限界を強調しています。データセットはhttps://huggingface.co/datasets/gplsi/MULTICOMで公開されています。

LLMは言語間で同じ常識的能力を示しますか？

Key Points

Abstract

Cite This Study

Also Consider

Also Consider