Key points are not available for this paper at this time.
أدت توفر بيانات تدريب غير خاضعة للرقابة بشكل غير مسبوق، جنبًا إلى جنب مع قوانين التحجيم العصبي، إلى زيادة غير مسبوقة في حجم النماذج ومتطلبات الحوسبة لخدمة/تدريب نماذج اللغة الكبيرة. ومع ذلك، فإن عنق الزجاجة الرئيسي في الأداء يتحول بشكل متزايد إلى عرض النطاق الترددي للذاكرة. على مدى السنوات العشرين الماضية، كان أداء خوادم الهاردوير في الفلوبس يتزايد بمعدل 3.0×/سنتين، متفوقًا على نمو عرض النطاق الترددي لذاكرة DRAM والاتصالات، والتي زادت فقط بمعدل 1.6 و1.4 مرة كل سنتين، على التوالي. لقد جعلت هذه الفجوة الذاكرة، بدلاً من الحوسبة، عنق الزجاجة الرئيسي في تطبيقات الذكاء الاصطناعي، خاصة في الخدمة. هنا، نقوم بتحليل نماذج المحولات المُشفرة والمُفككة ونظهر كيف يمكن أن يصبح عرض النطاق الترددي للذاكرة هو العائق الرئيسي لنماذج المُفكك. نحن ندعو إلى إعادة تصميم في هيكل النموذج واستراتيجيات التدريب والنشر للتغلب على هذا القيد في الذاكرة.
درس غولامي وآخرون (مون) هذا السؤال.