تعتمد المكاسب الكبيرة في أداء نماذج اللغة الحديثة حالياً على زيادة عدد المعلمات: حيث تخزن النماذج الأكبر قدراً أكبر من المعرفة العالمية وتتمكن من التفكير بشكل أفضل. ومع ذلك، فإن ضغط كل المعرفة العالمية ضمن المعلمات ليس ضرورياً، إذ يُستخدم جزء صغير فقط في كل مطالبة، وهو أمر غير عملي للأجهزة الطرفية التي تملك ذاكرة وحوسبة محدودة أثناء وقت الاستدلال. نحن نعالج هذا القصور من خلال هيكلية مدعمة بالذاكرة واستراتيجية تدريب مسبق تتماشى مع أنماط الأجهزة الحالية. نقدم نماذج لغوية صغيرة تصل إلى بنوك ذاكرة بارامترية هرمية كبيرة ترمز إلى المعرفة العالمية. أثناء التدريب المسبق والاستدلال، نستدعي كتلة ذاكرة صغيرة تعتمد على السياق ونضيفها إلى النموذج. يتعلم تدريبنا المسبق تخزين المعرفة النادرة للعالم ضمن معلمات الذاكرة، بينما يعمل النموذج اللغوي الصغير كمرتكز يلتقط المعرفة الشائعة وقدرات الاستدلال العامة. من خلال تجارب بحجم تريليون رمز، نُظهر مكاسب مهمة: نموذج بحجم 160 مليون معلمة مدعّم بذاكرة بحجم 18 مليون معلمة مُستدعاة من بنك ذاكرة بحجم 4.6 مليار يعطي أداءً مماثلاً لنموذج عادي بأكثر من ضعف عدد المعلمات. ومن خلال تجارب واسعة، ندرس النوع والحجم الأمثل للذاكرات البارامترية في المحولات، ونوسعها لتتجاوز 21 مليار معلمة. نجد أن ذاكرات التغذية الأمامية الهرمية المقترحة تعمل بثبات عبر معماريات المحولات، سواء أضيفت أثناء التدريب المسبق أو بعده.
درس Pouransari وآخرون (Mon,) هذا السؤال.