Key points are not available for this paper at this time.
تُظهر العديد من الأعمال الحديثة أن المحولات يمكن أن تنفذ خوارزميات مثل خفض التدرج. من خلال بناء دقيق للأوزان، تُظهر هذه الأعمال أن طبقات متعددة من المحولات تعبر بما فيه الكفاية لمحاكاة تكرارات خفض التدرج. متجاوزين سؤال التعبيرية، نتساءل: هل يمكن للمحولات أن تتعلم تنفيذ مثل هذه الخوارزميات من خلال التدريب على حالات عشوائية من المشاكل؟ وإلى علمنا، نحقق أول تقدم نظري في هذا السؤال من خلال تحليل مشهد الخسارة للمحولات الخطية المدربة على حالات عشوائية من الانحدار الخطي. بالنسبة لطبقة انتباه واحدة، نثبت أن الحد الأدنى العالمي للهدف التدريبي ينفذ تكراراً واحداً من خفض التدرج المشروط مسبقًا. ومن الجدير بالذكر أن مصفوفة المعالجة المسبقة لا تتكيف فقط مع توزيع المدخلات ولكن أيضًا مع التباين الناتج عن عدم كفاية البيانات. بالنسبة لمحول مع L من طبقات الانتباه، نثبت أن بعض النقاط الحرجة للهدف التدريبي تنفذ L تكرارات من خفض التدرج المشروط مسبقًا. تدعو نتائجنا إلى دراسات نظرية مستقبلية حول تعلم الخوارزميات من خلال تدريب المحولات.
درس أهن وآخرون (الخميس) هذا السؤال.