February 27, 2024Open Access

تعزيز الكفاءة في النماذج المتناثرة مع اختيار أكثر تناثرًا

Key Points

Key points are not available for this paper at this time.

Abstract

ظهرت النماذج المتناثرة، بما في ذلك نماذج مزيج الخبراء المتناثرين (MoE)، كنهج فعال لتوسيع نماذج التحويل. ومع ذلك، فإنها غالبًا ما تعاني من عدم الكفاءة الحاسوبية حيث تتضمن عددًا كبيرًا من المعلمات بشكل غير ضروري في العمليات الحسابية عن طريق ضرب القيم بالصفر أو القيم منخفضة التنشيط. لمعالجة هذه المشكلة، نقدم MoE جديدة مصممة لتعزيز كلاً من الفعالية والكفاءة لنماذج MoE المتناثرة. تستفيد من خبراء صغار وموجه قائم على العتبة لتمكين الرموز من الانخراط انتقائيًا فقط في المعلمات الأساسية. تظهر تجاربنا الواسعة على مهام نمذجة اللغة والترجمة الآلية أن بإمكانها تعزيز أداء النموذج مع تقليل الحمل الحاسوبي في طبقات MoE بأكثر من 50\% دون التضحية بالأداء. علاوة على ذلك، نقدم تنوعها من خلال تطبيقها على النماذج الكثيفة، مما يتيح حسابات متناثرة أثناء الاستدلال. نقدم تحليلًا شاملاً ونجعل كودنا متاحًا على https://anonymous.4open.science/r/XMoE.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper