Key points are not available for this paper at this time.
تعمل نماذج المحولات كنواة للعديد من نماذج اللغة الرائدة، وتستخدم معظمها آلية الانتباه المعتمد على النقطتين المتدرجتين (SDPA) لالتقاط العلاقات بين الرموز. ومع ذلك، فإن تنفيذ SDPA بشكل مباشر له تعقيد حسابي وذاكرة تربيعي بالنسبة لطول التسلسل. على معمارية المعالجات مثل وحدات معالجة الرسوميات (GPUs) ووحدات معالجة Tensor (TPUs)، هناك مجموعة قوية من الأعمال السابقة. ومع ذلك، تم إجراء القليل من الأعمال على الهياكل غير المعالجة. في هذا العمل، نوضح كيف يمكن أن تساعد معمارية ونموذج التنفيذ لعجلات تدفق البيانات المتدفقة في مواجهة هذا التحدي. أولاً، نعرف الأجهزة المجردة التي تعتمد نموذج تنفيذ متدفق، وننفذ محاكي دقيق للدورات للأجهزة المجردة باستخدام إطار محاكاة آلة تدفق البيانات. ثانياً، ننفذ خوارزمية SDPA البسيطة على هذه الأجهزة المجردة ونظهر أنها تتطلب ذاكرة وسيطة خطية (O(N)). ثالثًا، نقوم بتعديل الخوارزمية البسيطة، مستلهمين من الأعمال السابقة الموجهة للمعالجات، من خلال إعادة ترتيب عمليات الضرب والقسمة. أخيرًا، نقوم برسم الخوارزمية المعدلة على الأجهزة المجردة، ونتأكد من أن التنفيذ يحسب SDPA بكامل الطاقة الإنتاجية بينما يستخدم فقط كمية ثابتة (O(1)) من الذاكرة الوسيطة.
درس سون وآخرون (Thu,) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: