March 1, 2024Open Access

سيمي-إنستركت: جسر بين التعلم الموجه الطبيعي والتعلم الموجه الذاتي لنماذج اللغة الكبيرة الخاصة بالبرمجة

Key Points

Key points are not available for this paper at this time.

Abstract

يلعب ضبط التعليمات دورًا محوريًا في نماذج اللغة الكبيرة الخاصة بالبرمجة (Code LLMs) لمهمة تخليق البرامج. حاليًا، هناك نظامان سائدان لجمع بيانات الضبط: التعلم الموجه الطبيعي (الذي يكتبه البشر) والتعلم الموجه الذاتي (الذي يُنشأ تلقائيًا). يشمل التعلم الموجه الطبيعي تعليمات وأكواد متنوعة وصحيحة لكنه يفتقر إلى أزواج تعليمات-كود، كما توجد تنسيقات أكواد غير صحيحة مثل الأكواد الأحادية السطر المتداخلة. بالمقابل، يقوم التعلم الموجه الذاتي بإنتاج بيانات أزواج صحيحة تلقائيًا، لكنه يعاني من نقص التنوع بسبب توليد تكرارات ولا يمكنه ضمان صحة الأكواد. لسد الفجوة بين النظامين، نقترح طريقة سيمي-إنستركت. حيث تقوم أولًا بتحويل الأكواد المتنوعة ولكن غير الصحيحة من التعلم الموجه الطبيعي إلى أزواج تعليمات-كود صحيحة من خلال طريقة مشابهة للتعلم الموجه الذاتي. للتحقق من صحة الأكواد المولدة، صممنا طريقة جديدة لبناء حالات اختبار عبر توليد مدخلات للحالات وتنفيذ الأكواد الصحيحة من التعلم الموجه الطبيعي للحصول على المخرجات. أخيرًا، يتم الاحتفاظ بأزواج تعليمات-كود متنوعة وصحيحة لضبط التعليمات. تُظهر التجارب أن سيمي-إنستركت يتفوق بشكل ملحوظ على التعلم الموجه الطبيعي والتعلم الموجه الذاتي، كما أن الأداء يتحسن باستمرار مع زيادة حجم البيانات.

سيمي-إنستركت: جسر بين التعلم الموجه الطبيعي والتعلم الموجه الذاتي لنماذج اللغة الكبيرة الخاصة بالبرمجة

Key Points

Abstract

Cite This Study

Also Consider

Also Consider