April 25, 2024Open Access

تنفيذ وتحسين انتباه النقطتين المتدرجتين على تدفقات البيانات المتدفقة

Key Points

Key points are not available for this paper at this time.

Abstract

تعمل نماذج المحولات كنواة للعديد من نماذج اللغة الرائدة، وتستخدم معظمها آلية الانتباه المعتمد على النقطتين المتدرجتين (SDPA) لالتقاط العلاقات بين الرموز. ومع ذلك، فإن تنفيذ SDPA بشكل مباشر له تعقيد حسابي وذاكرة تربيعي بالنسبة لطول التسلسل. على معمارية المعالجات مثل وحدات معالجة الرسوميات (GPUs) ووحدات معالجة Tensor (TPUs)، هناك مجموعة قوية من الأعمال السابقة. ومع ذلك، تم إجراء القليل من الأعمال على الهياكل غير المعالجة. في هذا العمل، نوضح كيف يمكن أن تساعد معمارية ونموذج التنفيذ لعجلات تدفق البيانات المتدفقة في مواجهة هذا التحدي. أولاً، نعرف الأجهزة المجردة التي تعتمد نموذج تنفيذ متدفق، وننفذ محاكي دقيق للدورات للأجهزة المجردة باستخدام إطار محاكاة آلة تدفق البيانات. ثانياً، ننفذ خوارزمية SDPA البسيطة على هذه الأجهزة المجردة ونظهر أنها تتطلب ذاكرة وسيطة خطية (O(N)). ثالثًا، نقوم بتعديل الخوارزمية البسيطة، مستلهمين من الأعمال السابقة الموجهة للمعالجات، من خلال إعادة ترتيب عمليات الضرب والقسمة. أخيرًا، نقوم برسم الخوارزمية المعدلة على الأجهزة المجردة، ونتأكد من أن التنفيذ يحسب SDPA بكامل الطاقة الإنتاجية بينما يستخدم فقط كمية ثابتة (O(1)) من الذاكرة الوسيطة.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper