What type of study is this?

This is a Experimental Study study.

October 17, 2025Open Access

Squeeze10-LLM: تقليص أوزان LLMs بمقدار 10 مرات عبر طريقة التكميم ذات الدقة المختلطة المرحلية

Key Points

يحقق Squeeze10-LLM تقليصًا في حجم الأوزان بمقدار 10 أضعاف، مما يعزز كفاءة نماذج اللغة الكبيرة بشكل كبير.
يقوم الإطار بتكميم 80% من الأوزان إلى 1 بت و20% إلى 4 بتات، مما ينتج متوسط 1.6 بت لكل وزن.
الابتكارات مثل متانة التنشيط بعد التثبيت الثنائي تحسّن الدقة في سيناريوهات التكميم منخفض الدقة.
تُظهر التجارب أداءً رائدًا على ست مهام تصنيف بدون تدريب مسبق، مع زيادة متوسط الدقة من 43% إلى 56%.

Abstract

يُعد نشر نماذج اللغة الكبيرة (LLMs) تحديًا بسبب حجم معلماتها الضخم وتكاليف الحوسبة العالية. يمكن لتكميم الدقة المنخفضة جدًا أن يقلل بشكل كبير من التخزين ويسرّع الاستدلال، لكن الضغط الشديد (أي متوسط عرض البت <= 2) غالبًا ما يؤدي إلى تدهور حاد في الأداء. لمعالجة هذا، نقترح Squeeze10-LLM، الذي يقوم بـ"ضغط" أوزان LLMs ذات 16-بت بمقدار 10 مرات بفعالية. على وجه التحديد، Squeeze10-LLM هو إطار عمل للتكميم بعد التدريب (PTQ) ذو دقة مختلطة مرحلي ويحقق متوسط 1.6 بت لكل وزن عن طريق تكميم 80% من الأوزان إلى 1 بت و20% إلى 4 بتات. نقدم Squeeze10LLM مع ابتكارين رئيسيين: متانة التنشيط بعد التثبيت الثنائي (PBAR) والمراقبة الشاملة لمعلومات التنشيط (FIAS). PBAR هو مقياس دلالة الوزن المحسن الذي يأخذ في الاعتبار تأثير التكميم على التنشيطات، مما يحسّن الدقة في إعدادات الدقة المنخفضة. FIAS هي استراتيجية تحافظ على كامل معلومات التنشيط أثناء التكميم لتخفيف تراكم الأخطاء عبر الطبقات. تظهر التجارب على LLaMA وLLaMA2 أن Squeeze10-LLM يحقق أداءً رائدًا في تكميم الوزن فقط بأقل من 2 بت، حيث يحسّن الدقة المتوسطة من 43% إلى 56% في ست مهام تصنيف صفرية التدريب--وهي قفزة كبيرة مقارنة بأساليب PTQ الحالية. سيتم إصدار الكود عند النشر.

Squeeze10-LLM: تقليص أوزان LLMs بمقدار 10 مرات عبر طريقة التكميم ذات الدقة المختلطة المرحلية

Key Points

Abstract

Cite This Study