Key points are not available for this paper at this time.
حققت نماذج اللغة المدربة مسبقًا مثل BERT ونسخها أداءً مثيرًا للإعجاب في مهام فهم اللغة الطبيعية المختلفة. ومع ذلك، يعتمد BERT بشكل كبير على كتلة الانتباه الذاتي العالمية، وبالتالي يعاني من استخدام كبير للذاكرة وتكلفة حسابية عالية. على الرغم من أن جميع رؤوس الانتباه تستفسر عن تسلسل الإدخال بالكامل لتوليد خريطة الانتباه من منظور عالمي، نلاحظ أن بعض الرؤوس تحتاج فقط إلى تعلم الاعتماد المحلي، مما يعني وجود فائض في الحساب. لذلك، نقترح التقاء الديناميكي المستند إلى النطاق لاستبدال هذه الرؤوس المعتمدة على الانتباه الذاتي لنمذجة الاعتمادات المحلية بشكل مباشر. تشكل الرؤوس الجديدة المبتكرة، جنبًا إلى جنب مع بقية رؤوس الانتباه الذاتي، كتلة انتباه مختلطة جديدة تكون أكثر كفاءة في تعلم السياقات العالمية والمحلية. مجهزين BERT بتصميم الانتباه المختلط هذا، نبني نموذج ConvBERT. أظهرت التجارب أن نموذج ConvBERT يتفوق بشكل ملحوظ على BERT ونسخه في مهام متتالية متنوعة، مع تكلفة تدريب أقل وعدد أقل من معلمات النموذج. بشكل ملحوظ، حقق نموذج ConvBERTbase درجة 86.4 في GLUE، أعلى بـ 0.7 من ELECTRAbase، مع استخدام أقل من 1/4 تكلفة التدريب. سيتم إصدار الشيفرة والنماذج المدربة مسبقًا.
دراسة جيانغ وآخرون (الخميس) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: