Key points are not available for this paper at this time.
هناك اهتمام متزايد باستخدام مقاييس التقييم المعتمدة على الجسد النصي والمحتسبة آليًا لتقييم أنظمة توليد اللغة الطبيعية (NLG)، لأن هذه المقاييس غالبًا ما تكون أقل تكلفة بشكل كبير من التقييمات التي يقوم بها البشر والتي كانت تستخدم تقليديًا في مجال توليد اللغة الطبيعية. نستعرض الأعمال السابقة حول تقييم NLG والتحقق من صحة المقاييس الآلية في معالجة اللغة الطبيعية، ثم نقدم نتائج دراستين حول مدى ترابط بعض المقاييس الشائعة في مجالات أخرى من معالجة اللغة الطبيعية (لا سيما BLEU وROUGE) مع الأحكام البشرية في مجال التنبؤات الجوية المولدة بالحاسوب. تشير نتائجنا إلى أنه، على الأقل في هذا المجال، قد توفر المقاييس مقياسًا مفيدًا لجودة اللغة، على الرغم من أن الأدلة على ذلك ليست بالقوة التي نودها؛ ومع ذلك، فهي لا توفر مقياسًا مفيدًا لجودة المحتوى. نناقش أيضًا عددًا من التحفظات التي يجب مراعاتها عند تفسير هذه الدراسات وغيرها من دراسات التحقق.
درس Reiter وآخرون (الأربعاء) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: