يوفر الاستنتاج على الحافة لنماذج اللغة الكبيرة (LLM) حلول استنتاج آمنة ومنخفضة الكمون وفعالة من حيث التكلفة. نؤكد على أن المسرع على الحافة يجب أن يحقق كفاءة عالية في المساحة ويقلل من الوصول إلى الذاكرة الخارجية (EMA) خلال مرحلة فك التشفير المعتمد على الذاكرة، مع الحفاظ على كفاءة طاقة عالية خلال مرحلة التحضير المكثف للحساب. تقترح هذه الورقة مسرع استنتاج LLM على الحافة يتميز بهندسة مصفوفة انقباضية هجينة (HSA) تحسن كفاءة الاستنتاج في كلا المرحلتين. لتقليل EMA بشكل أكبر، نعتمد على ترميز وزن MXINT4 ونقترح تدفق بيانات مُحسن مصمم لـ HSA، مما يضمن تحميل منخفض للتخلص من التكميم ويحقق استخدام 100% للعتاد مع الحد الأدنى من فقدان الدقة تحت قيود عرض النطاق الترددي لذاكرة DRAM على الحافة. بالنسبة للعمليات غير الخطية، ندمج وحدات تطبيع الجذر التربيعي المتوسط (RMSNorm) ووحدات تضمين الموضع الدائري (RoPE)، مما يقلل من زمن الاستجابة وأعباء الوصول إلى الذاكرة مع تمكين الاستنتاج من البداية إلى النهاية على المسرع الخاص بنا. تحققت حلولنا 247/117 (رمز/ثانية/مم²) أثناء تشغيل LLM بحجم 1.3B في سيناريوهات الإدخال الطويل/الإخراج الطويل، مما يوفر تحسينًا يتجاوز 2.45x/13.5x مقارنة بالأساليب الحالية، مع الحفاظ على كفاءة طاقة متفوقة في توليد الرموز.
درس تشين وآخرون (جمعة) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: