Key points are not available for this paper at this time.
ظهرت النماذج المتناثرة، بما في ذلك نماذج مزيج الخبراء المتناثرين (MoE)، كنهج فعال لتوسيع نماذج التحويل. ومع ذلك، فإنها غالبًا ما تعاني من عدم الكفاءة الحاسوبية حيث تتضمن عددًا كبيرًا من المعلمات بشكل غير ضروري في العمليات الحسابية عن طريق ضرب القيم بالصفر أو القيم منخفضة التنشيط. لمعالجة هذه المشكلة، نقدم MoE جديدة مصممة لتعزيز كلاً من الفعالية والكفاءة لنماذج MoE المتناثرة. تستفيد من خبراء صغار وموجه قائم على العتبة لتمكين الرموز من الانخراط انتقائيًا فقط في المعلمات الأساسية. تظهر تجاربنا الواسعة على مهام نمذجة اللغة والترجمة الآلية أن بإمكانها تعزيز أداء النموذج مع تقليل الحمل الحاسوبي في طبقات MoE بأكثر من 50\% دون التضحية بالأداء. علاوة على ذلك، نقدم تنوعها من خلال تطبيقها على النماذج الكثيفة، مما يتيح حسابات متناثرة أثناء الاستدلال. نقدم تحليلًا شاملاً ونجعل كودنا متاحًا على https://anonymous.4open.science/r/XMoE.
درس يانغ وآخرون (الثلاثاء) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: