Key points are not available for this paper at this time.
يهدف توليد الكود إلى صياغة رموز برمجية وتلبية المتطلبات الوظيفية بناءً على مواصفات اللغة الطبيعية (NL)، مما يمكن أن يحسن بشكل كبير من كفاءة التطوير. في عصر نماذج اللغة الكبيرة (LLMs)، تم اقتراح نماذج الكود الكبيرة (LCMs) حديثًا لتوليد الشفرة المصدرية. تستطيع نماذج الكود الكبيرة توليد حلول قابلة للتطبيق بدرجة عالية للمشكلات البرمجية الموضحة باللغة الطبيعية. على الرغم من الفعالية، نلاحظ وجود تحيز لغوي متعدد ملحوظ في أداء التوليد لنماذج الكود الكبيرة. على وجه التحديد، تظهر نماذج الكود الكبيرة كفاءة في توليد الحلول عندما تُقدم التعليمات باللغة الإنجليزية، لكنها قد تتراجع عندما تواجه تعليمات مكافئة دلاليًا بلغات طبيعية أخرى مثل الصينية. علاوة على ذلك، تظهر قدرة نماذج الكود الكبيرة على توليد الكود تنوعًا عبر لغات البرمجة المختلفة (PLs)، مثل بايثون وC++. الظاهرة المُلاحظة تشير إلى وجود تحيز متعدد اللغات ضمن القدرات التوليدية لنماذج الكود الكبيرة، والذي لم يتم استكشافه بعد. في هذا البحث، نهدف إلى دراسة التحيز متعدد اللغات الموجود في نماذج الكود الكبيرة الحالية. أولًا، نبدأ تحقيقنا ببناء أول معيار تقييم متعدد اللغات X-HumanEval-X، مما يمكننا من تقييم منهجي لمدى وجود التحيز متعدد اللغات في نماذج الكود الكبيرة الحالية. في تجاربنا واسعة النطاق على تسعة من نماذج الكود الكبيرة الشهيرة، لاحظنا تحيزًا متعدد اللغات بارزًا في توليد الكود، يشمل تحيزات متعددة في اللغات الطبيعية واللغات البرمجية. على وجه الخصوص، عند استخدام تعليمات باللغة الصينية، تنخفض قدرات توليد الكود لنماذج الكود الكبيرة بنسبة لا تقل عن 13% وفقًا لمؤشر Pass@1. علاوة على ذلك، تؤدي نماذج الكود الكبيرة أداءً متباينًا عبر لغات البرمجة المختلفة، مثلاً، يصل الفارق في الأداء بين بايثون وC++ إلى 20.9%.
درس وانغ وآخرون (الثلاثاء) هذا السؤال.