يُعد نشر نماذج اللغة الكبيرة (LLMs) تحديًا بسبب حجم معلماتها الضخم وتكاليف الحوسبة العالية. يمكن لتكميم الدقة المنخفضة جدًا أن يقلل بشكل كبير من التخزين ويسرّع الاستدلال، لكن الضغط الشديد (أي متوسط عرض البت <= 2) غالبًا ما يؤدي إلى تدهور حاد في الأداء. لمعالجة هذا، نقترح Squeeze10-LLM، الذي يقوم بـ"ضغط" أوزان LLMs ذات 16-بت بمقدار 10 مرات بفعالية. على وجه التحديد، Squeeze10-LLM هو إطار عمل للتكميم بعد التدريب (PTQ) ذو دقة مختلطة مرحلي ويحقق متوسط 1.6 بت لكل وزن عن طريق تكميم 80% من الأوزان إلى 1 بت و20% إلى 4 بتات. نقدم Squeeze10LLM مع ابتكارين رئيسيين: متانة التنشيط بعد التثبيت الثنائي (PBAR) والمراقبة الشاملة لمعلومات التنشيط (FIAS). PBAR هو مقياس دلالة الوزن المحسن الذي يأخذ في الاعتبار تأثير التكميم على التنشيطات، مما يحسّن الدقة في إعدادات الدقة المنخفضة. FIAS هي استراتيجية تحافظ على كامل معلومات التنشيط أثناء التكميم لتخفيف تراكم الأخطاء عبر الطبقات. تظهر التجارب على LLaMA وLLaMA2 أن Squeeze10-LLM يحقق أداءً رائدًا في تكميم الوزن فقط بأقل من 2 بت، حيث يحسّن الدقة المتوسطة من 43% إلى 56% في ست مهام تصنيف صفرية التدريب--وهي قفزة كبيرة مقارنة بأساليب PTQ الحالية. سيتم إصدار الكود عند النشر.
درس زهو وآخرون (Thu,) هذا السؤال.