October 2, 2023

حول تأثير اختيار اللغة في تدريب وتقييم نماذج لغات البرمجة

Key Points

Key points are not available for this paper at this time.

Abstract

أظهرت التقدمات الأخيرة في نماذج اللغة المعتمدة على ترانسفورمر إمكانيات كبيرة في تعزيز القدرات متعددة اللغات لهذه النماذج. إن التقدم الملحوظ الذي تم إحرازه في هذا المجال لا ينطبق فقط على مهام اللغة الطبيعية بل يمتد أيضًا إلى مجال لغات البرمجة. على الرغم من قدرة هذه النماذج على التعلم من لغات متعددة، إلا أن التقييمات تركز عادةً على تركيبات معينة من نفس اللغات. في هذه الدراسة، نقوم بتقييم تشابه لغات البرمجة من خلال تحليل تمثيلاتها باستخدام نموذج معتمد على CodeBERT. تكشف تجاربنا أن تمثيل الرموز في لغات مثل C++ وPython وJava يظهر قربًا من بعضها البعض، بينما تظهر الرموز نفسها في لغات مثل Mathematica وR تباينًا كبيرًا. تشير نتائجنا إلى أن هذه الظاهرة قد تؤدي إلى تحديات في الأداء عند التعامل مع لغات متنوعة. لذلك، نوصي باستخدام مقياس التشابه الخاص بنا لاختيار مجموعة متنوعة من لغات البرمجة عند تدريب وتقييم النماذج المستقبلية.

اسأل الذكاء الاصطناعي

Bookmark