November 8, 2025Open Access

التدريب السابق مع الذاكرات الهرمية: فصل المعرفة النادرة والشائعة

Key Points

النماذج التي تحتوي على كتل ذاكرة تعتمد على السياق حسّنت الأداء مقارنة بالنماذج الأكبر دون ذاكرة هرمية.
يؤدي النموذج اللغوي أداءً مماثلاً للنماذج الأكبر أثناء الاستدلال مع استخدام عدد أقل بكثير من المعلمات.
يمكن لتطبيق هياكل مدعمة بالذاكرة تحسين تخزين واستخدام المعرفة العالمية في المحولات.
تستدعي أنظمة الذاكرة الهرمية مزيداً من الاستكشاف لتعزيز الأداء عبر معماريات المحولات المتنوعة.

Abstract

تعتمد المكاسب الكبيرة في أداء نماذج اللغة الحديثة حالياً على زيادة عدد المعلمات: حيث تخزن النماذج الأكبر قدراً أكبر من المعرفة العالمية وتتمكن من التفكير بشكل أفضل. ومع ذلك، فإن ضغط كل المعرفة العالمية ضمن المعلمات ليس ضرورياً، إذ يُستخدم جزء صغير فقط في كل مطالبة، وهو أمر غير عملي للأجهزة الطرفية التي تملك ذاكرة وحوسبة محدودة أثناء وقت الاستدلال. نحن نعالج هذا القصور من خلال هيكلية مدعمة بالذاكرة واستراتيجية تدريب مسبق تتماشى مع أنماط الأجهزة الحالية. نقدم نماذج لغوية صغيرة تصل إلى بنوك ذاكرة بارامترية هرمية كبيرة ترمز إلى المعرفة العالمية. أثناء التدريب المسبق والاستدلال، نستدعي كتلة ذاكرة صغيرة تعتمد على السياق ونضيفها إلى النموذج. يتعلم تدريبنا المسبق تخزين المعرفة النادرة للعالم ضمن معلمات الذاكرة، بينما يعمل النموذج اللغوي الصغير كمرتكز يلتقط المعرفة الشائعة وقدرات الاستدلال العامة. من خلال تجارب بحجم تريليون رمز، نُظهر مكاسب مهمة: نموذج بحجم 160 مليون معلمة مدعّم بذاكرة بحجم 18 مليون معلمة مُستدعاة من بنك ذاكرة بحجم 4.6 مليار يعطي أداءً مماثلاً لنموذج عادي بأكثر من ضعف عدد المعلمات. ومن خلال تجارب واسعة، ندرس النوع والحجم الأمثل للذاكرات البارامترية في المحولات، ونوسعها لتتجاوز 21 مليار معلمة. نجد أن ذاكرات التغذية الأمامية الهرمية المقترحة تعمل بثبات عبر معماريات المحولات، سواء أضيفت أثناء التدريب المسبق أو بعده.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper