本稿では、大規模言語モデル(LLM)の多言語常識生成能力を探求します。この調査を促進するために、英語、スペイン語、オランダ語、バレンシア語の4つの言語に拡張された新しいベンチマーク、MULTICOMを紹介します。この課題は、与えられた3つの単語の組を含む常識的な文を生成することです。LLaMA、Qwen、Gemma、EuroLLM、Salamandraを含むさまざまなオープンソースのLLMをこのベンチマークで評価しました。評価は、自動メトリクス、LLMを審査する手法(PrometheusおよびJudgeLMを使用)、および人間のアノテーションを組み合わせています。結果は常に英語でのパフォーマンスが優れており、リソースが限られた言語では著しく低いパフォーマンスを示しています。文脈のサポートは混合結果をもたらしますが、過小評価された言語には利益をもたらす傾向があります。これらの発見は、多言語常識生成におけるLLMの現在の限界を強調しています。データセットはhttps://huggingface.co/datasets/gplsi/MULTICOMで公開されています。
Martínez-Murillo et al. (Mon,) はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: