Key points are not available for this paper at this time.
أدى تزايد توفر النماذج اللغوية الكبيرة (LLMs) مفتوحة المصدر إلى تمكين المستخدمين من نشرها على المزيد من الأجهزة الطرفية ذات الموارد المحدودة لتقليل الاعتماد على اتصالات الشبكة وتوفير المزيد من الخصوصية. ومع ذلك، فإن المطالب العالية من حيث الحوسبة والذاكرة للنماذج اللغوية الكبيرة تجعل تنفيذها على الأجهزة الطرفية ذات الموارد المحدودة تحديًا وغير فعال. لمعالجة هذه المشكلة، يعد تصميم مسرعات جديدة وفعالة للأجهزة الطرفية لاستدلال النماذج اللغوية الكبيرة أمرًا بالغ الأهمية. تُعد المسرعات المعتمدة على FPGA مثالية لتسريع النماذج اللغوية الكبيرة بسبب قابليتها لإعادة التكوين، إذ تمكّن من تحسينات خاصة بالنموذج وكفاءة أداء أعلى لكل واط. إلا أن إنشاء ودمج مسرعات FPGA للنماذج اللغوية الكبيرة (وخاصة على الأجهزة الطرفية) كان تحديًا، ويرجع ذلك أساسًا إلى محدودية تدفقات تصميم الأجهزة للنماذج اللغوية الكبيرة في منصات FPGA الحالية. لمواجهة هذه المشكلة، نقترح في هذه الورقة أولًا منصة تصميم جديدة تُسمى SECDA-LLM، التي تستخدم منهجية SECDA لتبسيط عملية تصميم ودمج ونشر مسرعات FPGA فعالة للنماذج اللغوية الكبيرة لإطار استدلال llama.cpp. ثم نُظهر، من خلال دراسة حالة، الفوائد المحتملة لـ SECDA-LLM بإنشاء مسرّع MatMul جديد يدعم عمليات التعويم العائم الكمي كتلة الكتلة للنماذج اللغوية الكبيرة. يقلل تصميم المسرع الأولي الخاص بنا، الذي نُشر على لوحة PYNQ-Z1، من الكمون بمقدار 1.7 ثانية لكل رمز (أو حوالي 2 ثانية لكل كلمة) بمقدار 11 مرة مقارنة بالتنفيذ بواسطة وحدة المعالجة المركزية الثنائية النواة Arm NEON لنموذج TinyLlama.
درس هاريس وآخرون (Thu,) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: