Key points are not available for this paper at this time.
تصف هذه الورقة نظام نسخ البث العربي الذي طورته IBM في تقييم الترجمة الآلية للمرحلة 2.5 من GALE. تشمل التطورات الرئيسية استخدام بيانات تدريب إضافية من مركز البيانات اللغوية (LDC)، واستخدام مفردات كبيرة جدًا تتكون من 737 ألف كلمة و2.5 مليون_variant_ للنطق، والتشكيل التلقائي باستخدام تدريب البداية المسطحة، والتوافق المتبادل بين النماذج الصوتية غير المشكّلة والمشكّلة، وإعادة التقييم باستخدام نموذج لغة من الشبكة العصبية. يحقق النظام الناتج معدلات خطأ في الكلمات أقل من 10% في البث العربي. تظهر التجارب واسعة النطاق مع التدريب غير المراقب أن فائدة البيانات غير المراقبة تعتمد على كمية البيانات المراقبة المتاحة. بينما يحسن التدريب غير المراقب أداء النظام عندما تكون الكمية المتاحة من البيانات المراقبة محدودة (135 ساعة)، تختفي هذه المكاسب عند استخدام كمية أكبر (848 ساعة) من البيانات المراقبة، حتى مع وجود مجموعة كبيرة جدًا (7069 ساعة) من البيانات غير المراقبة. كما نصف طريقة لنمذجة اللهجات العربية تتجنب مشكلة ندرة البيانات الناتجة عن النماذج الصوتية الخاصة باللهجة من خلال استخدام أسئلة غير صوتية وغير محددة باللهجة في أشجار القرار. نوضح كيف يمكن استخدام هذه الطريقة مع رسم بياني لفك الشفرة مُجمع بشكل ثابت من خلال تقسيم أشجار القرار إلى مكون ثابت ومكون ديناميكي، حيث يتم استبدال المكون الديناميكي بخرائط يتم تقييمها في وقت التنفيذ.
درس سولتاو وآخرون (الثلاثاء) هذا السؤال.