Key points are not available for this paper at this time.
نظهر للمرة الأولى أن نماذج عائلة المحولات المدربة مسبقًا على نطاق واسع (GPT) يمكن تقليمها إلى 50% على الأقل من النقص في المرة الواحدة، دون إعادة تدريب، مع فقدان ضئيل في الدقة. يتم تحقيق ذلك من خلال طريقة تقليم جديدة تسمى SparseGPT، مصممة خصيصًا للعمل بكفاءة ودقة على نماذج عائلة GPT الضخمة. يمكننا تنفيذ SparseGPT على أكبر النماذج مفتوحة المصدر المتاحة، OPT-175B و BLOOM-176B، في أقل من 4.5 ساعات، ويمكننا الوصول إلى 60% من النقص غير المنظم مع زيادة ضئيلة في الارتباك: من المRemarkably، يمكن تجاهل أكثر من 100 مليار وزن من هذه النماذج في وقت الاستدلال. يتم تعميم SparseGPT على الأنماط شبه المنظمة (2:4 و 4:8)، وهو متوافق مع approaches تقدير الوزن. الشيفرة متاحة على: https://github.com/IST-DASLab/sparsegpt.
Building similarity graph...
Analyzing shared references across papers
Loading...
Elias Frantar
Institute of Science and Technology Austria
Dan Alistarh
Institute of Science and Technology Austria
Building similarity graph...
Analyzing shared references across papers
Loading...
درس فرانتار وآخرون (الاثنين) هذا السؤال.
synapsesocial.com/papers/69b03cbc98a0803b6cb32c42 — DOI: https://doi.org/10.48550/arxiv.2301.00774