Key points are not available for this paper at this time.
يمثل تدريب نماذج اللغة الكبيرة (LLMs) تحديات كبيرة في الذاكرة، ويرجع ذلك بشكل أساسي إلى زيادة حجم الأوزان وحالات المحسن. تضيف طرق تقليل الذاكرة الشائعة، مثل التكيف منخفض الرتبة (LoRA)، مصفوفة منخفضة الرتبة قابلة للتدريب إلى الوزن المجمد المدرب مسبقًا في كل طبقة، مما يقلل من المعلمات القابلة للتدريب وحالات المحسن. ومع ذلك، فإن هذه الطرق عادة ما تكون أقل كفاءة من التدريب بأوزان كاملة الرتبة في كل من مراحل التدريب المسبق والتعديل الدقيق لأنها تحد من بحث المعلمات إلى فرع منخفض الرتبة وتغير ديناميات التدريب، وقد تتطلب أيضًا بداية دافئة كاملة الرتبة. في هذا العمل، نقترح إسقاط منخفض الرتبة عن طريق التدرج (GaLore)، وهي استراتيجية تدريب تسمح بتعلم كامل المعاملات ولكنها أكثر كفاءة في استخدام الذاكرة من طرق التكيف منخفضة الرتبة الشائعة مثل LoRA. تReduce نهجنا استخدام الذاكرة بنسبة تصل إلى 65.5% في حالات المحسن مع الحفاظ على الكفاءة والأداء أثناء التدريب المسبق على معماريات LLaMA 1B و 7B مع مجموعة بيانات C4 التي تحتوي على ما يصل إلى 19.7B من الرموز، وعلى تعديل RoBERTa في مهام GLUE. يقلل GaLore الخاص بنا بعمق 8 بت المزيد من ذاكرة المحسن بنسبة تصل إلى 82.5% وإجمالي ذاكرة التدريب بنسبة 63.3%، بالمقارنة مع خط أساس BF16. من الجدير بالذكر أننا نثبت، للمرة الأولى، إمكانية التدريب المسبق على نموذج 7B باستخدام وحدات معالجة الرسوميات الاستهلاكية مع ذاكرة 24 جيجابايت (مثل NVIDIA RTX 4090) دون استخدام التوازي بين النماذج، أو استراتيجيات النقاط المرجعية، أو التحميل الخارجي.
درس زهاو وآخرون (الأربعاء) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: