Key points are not available for this paper at this time.
لقد زادت الطلبات الحسابية لتعلم الآلة (ML) بسرعة مؤخرًا، مما يأتي مع عدد من التكاليف. تساعد تقديرات تكاليف الطاقة في قياس تأثيرها البيئي وإيجاد استراتيجيات أكثر خضرة، ومع ذلك فإنها تمثل تحديًا بدون معلومات مفصلة. نقوم بحساب استخدام الطاقة والبصمة الكربونية لعدة نماذج كبيرة حديثة - T5 وMeena وGShard وSwitch Transformer وGPT-3 - ونقوم بتحسين التقديرات السابقة لبحث بنية الشبكات العصبية الذي وجد المحول المتطور. نبرز الفرص التالية لتحسين كفاءة الطاقة وانبعاثات مكافئ CO2 (CO2e): يمكن أن تستهلك الشبكات العصبية العميقة الكبيرة ولكن القليلة التفعيل أقل من 1/10 من الطاقة المطلوبة للشبكات العصبية الكثيفة الكبيرة دون التضحية بالدقة على الرغم من استخدام عدد مماثل أو حتى أكثر من المعلمات. تهمّ الموقع الجغرافي في جدولة أحمال العمل لتعلم الآلة، حيث أن نسبة الطاقة الخالية من الكربون ونتيجة لذلك تتفاوت من ~5X-10X، حتى ضمن نفس الدولة ونفس المنظمة. نحن الآن نقوم بتحسين أماكن وتوقيت تدريب النماذج الكبيرة. تعتبر البنية التحتية لمراكز البيانات المحددة مهمة، حيث يمكن أن تكون مراكز البيانات السحابية ~1.4-2X أكثر كفاءة في استخدام الطاقة من مراكز البيانات التقليدية، ويمكن أن تكون المسرعات الموجهة لتعلم الآلة داخلها ~2-5X أكثر فعالية من الأنظمة الجاهزة. من اللافت للنظر أن اختيار الشبكة العصبية العميقة، ومركز البيانات، والمعالج يمكن أن يقلل من البصمة الكربونية بما يصل إلى ~100-1000X. تجعل هذه العوامل الكبيرة أيضًا تقديرات التكلفة للطاقة بأثر رجعي صعبة. لتجنب الأخطاء في الحسابات، نعتقد أنه يجب على الأوراق المتعلقة بتعلم الآلة التي تتطلب موارد حاسوبية كبيرة أن توضح استهلاك الطاقة وCO2e عند الإمكان. نحن نعمل على أن نكون أكثر شفافية بشأن استخدام الطاقة وCO2e في أبحاثنا المستقبلية. للمساعدة في تقليل البصمة الكربونية لتعلم الآلة، نعتقد أن استخدام الطاقة وCO2e يجب أن يكون مقياسًا رئيسيًا في تقييم النماذج، ونتعاون مع مطوري MLPerf لإدراج استخدام الطاقة أثناء التدريب والاستنتاج في هذا المعيار الصناعي القياسي.
درس باترسون وزملاؤه (الأربعاء) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: