June 1, 2023Open Access

تتعلم المحولات تنفيذ خفض التدرج المشروط مسبقًا للتعلم في السياق

Key Points

Key points are not available for this paper at this time.

Abstract

تُظهر العديد من الأعمال الحديثة أن المحولات يمكن أن تنفذ خوارزميات مثل خفض التدرج. من خلال بناء دقيق للأوزان، تُظهر هذه الأعمال أن طبقات متعددة من المحولات تعبر بما فيه الكفاية لمحاكاة تكرارات خفض التدرج. متجاوزين سؤال التعبيرية، نتساءل: هل يمكن للمحولات أن تتعلم تنفيذ مثل هذه الخوارزميات من خلال التدريب على حالات عشوائية من المشاكل؟ وإلى علمنا، نحقق أول تقدم نظري في هذا السؤال من خلال تحليل مشهد الخسارة للمحولات الخطية المدربة على حالات عشوائية من الانحدار الخطي. بالنسبة لطبقة انتباه واحدة، نثبت أن الحد الأدنى العالمي للهدف التدريبي ينفذ تكراراً واحداً من خفض التدرج المشروط مسبقًا. ومن الجدير بالذكر أن مصفوفة المعالجة المسبقة لا تتكيف فقط مع توزيع المدخلات ولكن أيضًا مع التباين الناتج عن عدم كفاية البيانات. بالنسبة لمحول مع L من طبقات الانتباه، نثبت أن بعض النقاط الحرجة للهدف التدريبي تنفذ L تكرارات من خفض التدرج المشروط مسبقًا. تدعو نتائجنا إلى دراسات نظرية مستقبلية حول تعلم الخوارزميات من خلال تدريب المحولات.

Bookmark

View Full Paper

Bookmark

View Full Paper

تتعلم المحولات تنفيذ خفض التدرج المشروط مسبقًا للتعلم في السياق

Key Points

Abstract

Cite This Study