September 1, 2024Open Access

mHuBERT-147: نموذج هيوبرت متعدد اللغات المدمج

Key Points

Key points are not available for this paper at this time.

Abstract

نقدم لكم mHuBERT-147، وهو أول نموذج تمثيل صوتي هيوبرت متعدد اللغات يهدف للاستخدام العام، تم تدريبه على 90 ألف ساعة من بيانات نظيفة ومفتوحة الترخيص. لتعزيز نهج هيوبرت متعدد التكرارات، نستخدم التجميع القائم على فايس، مما يحقق تسريعًا بمعدل 5.2 أضعاف في تعيين التسميات مقارنة بالطريقة الأصلية. كما نطبق استراتيجية جديدة لزيادة العينة متعدّدة اللغات، مستفيدين من تنوع اللغات ومجموعات البيانات. بعد 3 دورات تدريبية، يتفوق نموذجنا المدمج المكون من 95 مليون معلمة mHuBERT-147 على النماذج الأكبر التي تم تدريبها على بيانات أكبر بشكل ملموس. نحن نحتل المركزين الثاني والأول في لوحات التقدم ML-SUPERB لمدة 10 دقائق و1 ساعة، مع نقاط SOTA لـ 3 مهام. عبر مهام ASR/LID، يتفوق نموذجنا باستمرار على XLS-R (300 مليون معلمة؛ 436 ألف ساعة) ويظهر تنافسية قوية ضد نموذج MMS الأكبر بكثير (1 مليار معلمة؛ 491 ألف ساعة). تشير نتائجنا إلى أن mHuBERT-147 هو نموذج واعد لمهام الصوت متعدد اللغات، حيث يقدم توازنًا غير مسبوق بين الأداء العالي وكفاءة المعلمات.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper