August 6, 2020Open Access

ConvBERT: تحسين BERT باستخدام الالتفاف الديناميكي المستند إلى النطاق

Key Points

Key points are not available for this paper at this time.

Abstract

حققت نماذج اللغة المدربة مسبقًا مثل BERT ونسخها أداءً مثيرًا للإعجاب في مهام فهم اللغة الطبيعية المختلفة. ومع ذلك، يعتمد BERT بشكل كبير على كتلة الانتباه الذاتي العالمية، وبالتالي يعاني من استخدام كبير للذاكرة وتكلفة حسابية عالية. على الرغم من أن جميع رؤوس الانتباه تستفسر عن تسلسل الإدخال بالكامل لتوليد خريطة الانتباه من منظور عالمي، نلاحظ أن بعض الرؤوس تحتاج فقط إلى تعلم الاعتماد المحلي، مما يعني وجود فائض في الحساب. لذلك، نقترح التقاء الديناميكي المستند إلى النطاق لاستبدال هذه الرؤوس المعتمدة على الانتباه الذاتي لنمذجة الاعتمادات المحلية بشكل مباشر. تشكل الرؤوس الجديدة المبتكرة، جنبًا إلى جنب مع بقية رؤوس الانتباه الذاتي، كتلة انتباه مختلطة جديدة تكون أكثر كفاءة في تعلم السياقات العالمية والمحلية. مجهزين BERT بتصميم الانتباه المختلط هذا، نبني نموذج ConvBERT. أظهرت التجارب أن نموذج ConvBERT يتفوق بشكل ملحوظ على BERT ونسخه في مهام متتالية متنوعة، مع تكلفة تدريب أقل وعدد أقل من معلمات النموذج. بشكل ملحوظ، حقق نموذج ConvBERTbase درجة 86.4 في GLUE، أعلى بـ 0.7 من ELECTRAbase، مع استخدام أقل من 1/4 تكلفة التدريب. سيتم إصدار الشيفرة والنماذج المدربة مسبقًا.

Bookmark

View Full Paper