Key points are not available for this paper at this time.
في ترجمة الآلة الإحصائية، يسعى الباحث إلى تحديد ما إذا كانت بعض الابتكارات (مثل ميزة جديدة أو نموذج أو خوارزمية استدلال) تحسن جودة الترجمة مقارنة بنظام الأساس. للإجابة على هذا السؤال، يقوم بتشغيل تجربة لتقييم سلوك النظامين على بيانات محتفظ بها. في هذه الورقة، نبحث في كيفية جعل هذه التجارب أكثر موثوقية إحصائيًا. نقدم تحليلًا منهجيًا لتأثيرات عدم استقرار المحسن — وهو متغير خارجي نادرًا ما يتم التحكم فيه — على النتائج التجريبية، ونقدم توصيات لتقارير النتائج بدقة أكبر.
درس كلارك وآخرون (الجمعة) هذا السؤال.