What type of study is this?

This is a Quantitative Study study (also classified as: Experimental Study).

October 2, 2025Open Access

مسرع مصفوفة انقباضية هجينة مع تدفق بيانات مُحسن لاستنتاج نماذج اللغة الكبيرة على الحافة

Key Points

يحقق المسرع المقترح تحسينًا كبيرًا يتجاوز 2.45x في سرعة الاستنتاج باستخدام تقنيات الاستنتاج على الحافة.
باستخدام ترميز وزن MXINT4، يقلل التصميم من الوصول إلى الذاكرة الخارجية خلال مرحلة فك التشفير المعتمدة على الذاكرة.
تساعد دمج وحدات تطبيع الجذر التربيعي المتوسط ووحدات تضمين الموضع الدائري في تقليل زمن الاستجابة وزيادة الكفاءة.
تدعم هندسة المصفوفة الانقباضية الهجينة أداء يصل إلى 247 رمز في الثانية/مم² مع ضمان كفاءة طاقة عالية.

Abstract

يوفر الاستنتاج على الحافة لنماذج اللغة الكبيرة (LLM) حلول استنتاج آمنة ومنخفضة الكمون وفعالة من حيث التكلفة. نؤكد على أن المسرع على الحافة يجب أن يحقق كفاءة عالية في المساحة ويقلل من الوصول إلى الذاكرة الخارجية (EMA) خلال مرحلة فك التشفير المعتمد على الذاكرة، مع الحفاظ على كفاءة طاقة عالية خلال مرحلة التحضير المكثف للحساب. تقترح هذه الورقة مسرع استنتاج LLM على الحافة يتميز بهندسة مصفوفة انقباضية هجينة (HSA) تحسن كفاءة الاستنتاج في كلا المرحلتين. لتقليل EMA بشكل أكبر، نعتمد على ترميز وزن MXINT4 ونقترح تدفق بيانات مُحسن مصمم لـ HSA، مما يضمن تحميل منخفض للتخلص من التكميم ويحقق استخدام 100% للعتاد مع الحد الأدنى من فقدان الدقة تحت قيود عرض النطاق الترددي لذاكرة DRAM على الحافة. بالنسبة للعمليات غير الخطية، ندمج وحدات تطبيع الجذر التربيعي المتوسط (RMSNorm) ووحدات تضمين الموضع الدائري (RoPE)، مما يقلل من زمن الاستجابة وأعباء الوصول إلى الذاكرة مع تمكين الاستنتاج من البداية إلى النهاية على المسرع الخاص بنا. تحققت حلولنا 247/117 (رمز/ثانية/مم²) أثناء تشغيل LLM بحجم 1.3B في سيناريوهات الإدخال الطويل/الإخراج الطويل، مما يوفر تحسينًا يتجاوز 2.45x/13.5x مقارنة بالأساليب الحالية، مع الحفاظ على كفاءة طاقة متفوقة في توليد الرموز.

مسرع مصفوفة انقباضية هجينة مع تدفق بيانات مُحسن لاستنتاج نماذج اللغة الكبيرة على الحافة

Key Points

Abstract

Cite This Study

Also Consider

Also Consider