Key points are not available for this paper at this time.
بالنظر إلى نموذج Transformer كبير، كيف يمكننا الحصول على نموذج صغير وذو كفاءة حسابية يحتفظ بأداء النموذج الأصلي؟ لقد أظهر Transformer تحسينات كبيرة في الأداء للعديد من مهام معالجة اللغة الطبيعية في السنوات الأخيرة. ومع ذلك، فإن حجمها الكبير، وتكاليفها الحسابية الباهظة، ووقت الاستدلال الطويل يجعل من الصعب نشرها على الأجهزة ذات الموارد المحدودة. تركز طرق ضغط Transformer الحالية بشكل أساسي على تقليل حجم المشفر متجاهلة أن المفكك يشغل الجزء الأكبر من وقت الاستدلال الطويل. في هذه الورقة، نقترح PET (تقطير المعرفة ذو الكفاءة المعلمية على المحولات)، وهي طريقة ضغط فعالة لـ Transformer تقلل من حجم كل من المشفر والمفكك. في PET، نحدد ونستغل أزواج من مجموعات المعلمات لتقاسم الوزن بكفاءة، ونستخدم عملية التسخين باستخدام مهمة مبسطة لزيادة المكاسب من خلال تقطير المعرفة. تظهر التجارب الواسعة على خمسة مجموعات بيانات حقيقية أن PET تتفوق على الطرق الحالية في مهام ترجمة الآلة. على وجه الخصوص، في مهمة IWSLT'14 EN→DE، تقلل PET من استخدام الذاكرة بنسبة 81.20% وتسرع من سرعة الاستدلال بنسبة 45.15% مقارنة بالنموذج غير المضغوط، مع انخفاض طفيف في درجة BLEU بمقدار 0.27.
دراسة Jeon وآخرون (الخميس) هذا السؤال.