January 2, 2023Open Access

SparseGPT: يمكن تقليم نماذج اللغة الكبيرة بدقة في一次 واحدة

Key Points

Key points are not available for this paper at this time.

Abstract

نظهر للمرة الأولى أن نماذج عائلة المحولات المدربة مسبقًا على نطاق واسع (GPT) يمكن تقليمها إلى 50% على الأقل من النقص في المرة الواحدة، دون إعادة تدريب، مع فقدان ضئيل في الدقة. يتم تحقيق ذلك من خلال طريقة تقليم جديدة تسمى SparseGPT، مصممة خصيصًا للعمل بكفاءة ودقة على نماذج عائلة GPT الضخمة. يمكننا تنفيذ SparseGPT على أكبر النماذج مفتوحة المصدر المتاحة، OPT-175B و BLOOM-176B، في أقل من 4.5 ساعات، ويمكننا الوصول إلى 60% من النقص غير المنظم مع زيادة ضئيلة في الارتباك: من المRemarkably، يمكن تجاهل أكثر من 100 مليار وزن من هذه النماذج في وقت الاستدلال. يتم تعميم SparseGPT على الأنماط شبه المنظمة (2:4 و 4:8)، وهو متوافق مع approaches تقدير الوزن. الشيفرة متاحة على: https://github.com/IST-DASLab/sparsegpt.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Elias Frantar

Institute of Science and Technology Austria

Dan Alistarh

Institute of Science and Technology Austria

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

SparseGPT: يمكن تقليم نماذج اللغة الكبيرة بدقة في一次 واحدة

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study