Key points are not available for this paper at this time.
في هذا العمل، نقدم التجارب التي أدت إلى إنشاء نماذج اللغة الألمانية القائمة على BERT وELECTRA، GBERT وGELECTRA. من خلال تغيير بيانات التدريب المدخلة، وحجم النموذج، ووجود تقنية Whole Word Masking (WWM)، تمكنا من تحقيق أداء SoTA عبر مجموعة من مهام تصنيف الوثائق والتعرف على الكيانات المسماة (NER) لكلا النموذجين بحجم أساسي وكبير. نتبنى نهجاً معتمداً على التقييم في تدريب هذه النماذج، وتشير نتائجنا إلى أن إضافة المزيد من البيانات واستخدام WWM يحسن أداء النموذج. من خلال معيارية مقارنة مع النماذج الألمانية الحالية، نظهر أن هذه النماذج هي أفضل النماذج الألمانية حتى الآن. ستتوفر نماذجنا المدربة للجمهور في مجتمع البحث.
دراسة تشان وآخرون (الأربعاء) هذا السؤال.