Key points are not available for this paper at this time.
نقدم لكم mHuBERT-147، وهو أول نموذج تمثيل صوتي هيوبرت متعدد اللغات يهدف للاستخدام العام، تم تدريبه على 90 ألف ساعة من بيانات نظيفة ومفتوحة الترخيص. لتعزيز نهج هيوبرت متعدد التكرارات، نستخدم التجميع القائم على فايس، مما يحقق تسريعًا بمعدل 5.2 أضعاف في تعيين التسميات مقارنة بالطريقة الأصلية. كما نطبق استراتيجية جديدة لزيادة العينة متعدّدة اللغات، مستفيدين من تنوع اللغات ومجموعات البيانات. بعد 3 دورات تدريبية، يتفوق نموذجنا المدمج المكون من 95 مليون معلمة mHuBERT-147 على النماذج الأكبر التي تم تدريبها على بيانات أكبر بشكل ملموس. نحن نحتل المركزين الثاني والأول في لوحات التقدم ML-SUPERB لمدة 10 دقائق و1 ساعة، مع نقاط SOTA لـ 3 مهام. عبر مهام ASR/LID، يتفوق نموذجنا باستمرار على XLS-R (300 مليون معلمة؛ 436 ألف ساعة) ويظهر تنافسية قوية ضد نموذج MMS الأكبر بكثير (1 مليار معلمة؛ 491 ألف ساعة). تشير نتائجنا إلى أن mHuBERT-147 هو نموذج واعد لمهام الصوت متعدد اللغات، حيث يقدم توازنًا غير مسبوق بين الأداء العالي وكفاءة المعلمات.
درس بويتوا وزملاؤه (سون،) هذا السؤال.