Key points are not available for this paper at this time.
حقق المحولات البصرية (ViTs) دقة رائدة في العديد من مهام رؤية الحاسوب. ومع ذلك، فإن تعقيدها الحسابي العالي يمنع تطبيقها في العديد من التطبيقات الواقعية. يُعد تقليم الأوزان وتقليم الرموز طريقتين معروفتين لتقليل التعقيد: حيث يقلل تقليم الأوزان من حجم النموذج والمتطلبات الحسابية المرتبطة به، بينما يقلل تقليم الرموز بشكل ديناميكي الحساب بناءً على المدخلات. ينبغي أن يؤدي الجمع بين هاتين التقنيتين إلى تقليل تعقيد الحساب وحجم النموذج بشكل كبير؛ ومع ذلك، فإن دمجهما بشكل بسيط يؤدي إلى أنماط حساب غير منتظمة، مما يؤدي إلى انخفاضات كبيرة في الدقة وصعوبات في تسريع الأجهزة. لمعالجة التحديات المذكورة، نقترح خوارزمية شاملة وتصميم متكامل للأجهزة لتسريع ViT على FPGA من خلال التقليم المتزامن - جمع تقليم الأوزان الثابت وتقليم الرموز الديناميكي. في تصميم الخوارزمية، نجمع بشكل منهجي طريقة تقليم الكتل المهيكلة المتوافقة مع الأجهزة لتقليم معلمات النموذج وطريقة تقليم الرموز الديناميكي لإزالة متجهات الرموز غير المهمة. علاوة على ذلك، نصمم خوارزمية تدريب جديدة لاستعادة دقة النموذج. في تصميم الأجهزة، نقوم بتطوير مسرع جهاز جديد لتنفيذ النموذج المقلم. يعتمد تصميم الجهاز المقترح على التوازي متعدد المستويات مع استراتيجية موازنة الحمل للتعامل بكفاءة مع نمط الحساب غير المنتظم الناتج عن تقنيتي التقليم. علاوة على ذلك، نقوم بتطوير آلية جهاز فعالة لتنفيذ تقليم الرموز عند الطلب بكفاءة.
درس بارّيك وآخرون (الأربعاء) هذا السؤال.