Key points are not available for this paper at this time.
تظهر كل جيل جديد من نماذج اللغة الكبيرة الموجهة للغة الإنجليزية (LLMs) قدرات محسّنة في نقل المعرفة عبر اللغات، وتتفوق بشكل كبير على النماذج القديمة في اللغات ذات الموارد المنخفضة. وهذا يثير السؤال: هل هناك حاجة لنماذج LLMs مخصصة للغة ذات موارد منخفضة معينة؟ نهدف إلى استكشاف هذا السؤال بالنسبة للبنغالية، وهي لغة هندو-أرية ذات موارد منخفضة إلى متوسطة، تعد موطنًا لمنطقة بنغال في جنوب آسيا. نقارن أداء نماذج LLMs ذات الأوزان المفتوحة والمصادر المغلقة مثل LLaMA-3 وGPT-4 مع نماذج الترميز والترميز المدرب بشكل دقيق عبر مجموعة متنوعة من المهام الفرعية في البنغالية، بما في ذلك الترجمة، والتلخيص، وإعادة الصياغة، والإجابة على الأسئلة، والاستدلال بلغة طبيعية. تكشف نتائجنا أنه بينما تتفوق نماذج LLMs بشكل عام في مهام الاستنتاج، إلا أن أدائها في المهام التي تتطلب توليد نص بحروف البنغالية غير متسق. تشمل التحديات الرئيسية التعبئة غير الفعالة لنصوص البنغالية بواسطة نماذج LLMs الحالية، مما يؤدي إلى زيادة التكاليف الحسابية واحتمالية تدهور الأداء. بالإضافة إلى ذلك، نبرز التحيزات في مجموعات البيانات المترجمة آليًا المستخدمة عادةً لمهام معالجة لغة البنغالية. نستنتج أن هناك حاجة كبيرة لنموذج LLM موجه للبنغالية، لكن المجال يفتقر حاليًا إلى مجموعات بيانات ما قبل التدريب عالية الجودة والضبط التعليمي اللازمة لتطوير نموذج فعال للغاية.
درس محفوظ وآخرون (السبت) هذا السؤال.