What does this research mean for the field?

Automatic evaluation metrics such as BLEU and ROUGE can provide a useful measure of language quality for Natural Language Generation systems, but they do not accurately measure content quality. Novelty: ClaimNovelty.CONFIRMATORY. Consensus alignment: ConsensusAlignment.NEUTRAL.

October 21, 2009Open Access

تحقيق في صلاحية بعض المقاييس لتقييم أنظمة توليد اللغة الطبيعية آليًا

Key Points

Key points are not available for this paper at this time.

Abstract

هناك اهتمام متزايد باستخدام مقاييس التقييم المعتمدة على الجسد النصي والمحتسبة آليًا لتقييم أنظمة توليد اللغة الطبيعية (NLG)، لأن هذه المقاييس غالبًا ما تكون أقل تكلفة بشكل كبير من التقييمات التي يقوم بها البشر والتي كانت تستخدم تقليديًا في مجال توليد اللغة الطبيعية. نستعرض الأعمال السابقة حول تقييم NLG والتحقق من صحة المقاييس الآلية في معالجة اللغة الطبيعية، ثم نقدم نتائج دراستين حول مدى ترابط بعض المقاييس الشائعة في مجالات أخرى من معالجة اللغة الطبيعية (لا سيما BLEU وROUGE) مع الأحكام البشرية في مجال التنبؤات الجوية المولدة بالحاسوب. تشير نتائجنا إلى أنه، على الأقل في هذا المجال، قد توفر المقاييس مقياسًا مفيدًا لجودة اللغة، على الرغم من أن الأدلة على ذلك ليست بالقوة التي نودها؛ ومع ذلك، فهي لا توفر مقياسًا مفيدًا لجودة المحتوى. نناقش أيضًا عددًا من التحفظات التي يجب مراعاتها عند تفسير هذه الدراسات وغيرها من دراسات التحقق.

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper