What type of study is this?

This is a Literature Review study.

October 20, 2025Open Access

من الشفرة إلى قاعة المحكمة: نماذج اللغة الكبيرة كقضاة برمجيات جدد

Key Points

تُظهر نماذج LLM إمكانات كبدائل فعالة من حيث التكلفة للمقيمين البشر في تقييم جودة البرمجيات.
تفشل المقاييس الآلية الحالية مثل BLEU في التقاط الخصائص الدقيقة للبرمجيات مثل سهولة الاستخدام وسهولة القراءة.
توضح الورقة الفجوات البحثية الرئيسية في أُطُر عمل LLM كقاضٍ وتقترح خارطة طريق للتقدمات المستقبلية.
يمكن أن يؤدي تحسين قدرات تقييم نماذج LLM إلى تعزيز جودة المنتجات البرمجية بشكل كبير في مجتمع هندسة البرمجيات.

Abstract

مؤخرًا، تم استخدام نماذج اللغة الكبيرة (LLMs) بشكل متزايد لأتمتة مهام هندسة البرمجيات مثل توليد الشفرة والتلخيص. ومع ذلك، لا تزال تقييم جودة المنتجات البرمجية التي تنتجها نماذج LLM يمثل تحديًا. التقييم البشري، رغم فعاليته، مكلف للغاية ويستغرق وقتًا طويلاً. تعتمد المقاييس الآلية التقليدية مثل BLEU على مراجع عالية الجودة وتعاني في التقاط الجوانب الدقيقة لجودة البرمجيات، مثل سهولة القراءة والقيمة العملية. استجابة لذلك، ظهر نموذج LLM كقاضٍ، الذي يستخدم نماذج LLM للتقييم الآلي. وبما أن نماذج LLM عادة ما تُدرّب لتتوافق مع الحكم البشري وتمتلك قدرات قوية في البرمجة ومهارات التفكير المنطقي، فهي تحمل وعدًا كبدائل فعالة من حيث التكلفة وقابلة للتوسع للتقيم البشري. مع ذلك، فإن أبحاث LLM كقاضٍ في مجتمع هندسة البرمجيات لا تزال في مراحلها المبكرة، وهناك حاجة للعديد من الاختراقات. يهدف هذا البحث الاستشرافي SE 2030 إلى توجيه مجتمع البحث نحو تطوير نموذج LLM كقاضٍ لتقييم منتجات البرمجيات التي تنتجها نماذج LLM، مع مشاركة المسارات المحتملة للبحث لتحقيق هذا الهدف. نقدم مراجعة أدبية للدراسات القائمة في هندسة البرمجيات حول LLM كقاضٍ ونرى هذه الأُطُر كبدائل بشرية موثوقة وقوية وقابلة للتوسع قادرة على تقييم المنتجات البرمجية بتقييمات متسقة ومتعددة الأبعاد بحلول عام 2030 وما بعده. للتحقق من هذه الرؤية، نحليل قيود الدراسات الحالية، ونحدد فجوات البحث الرئيسية، ونضع خارطة طريق مفصلة لتوجيه التطورات المستقبلية لنموذج LLM كقاضٍ في هندسة البرمجيات. وعلى الرغم من أنها ليست دليلًا نهائيًا، فإن عملنا يهدف إلى تعزيز المزيد من البحث وتبني أُطُر LLM كقاضٍ داخل مجتمع هندسة البرمجيات، مما يحسن في نهاية المطاف فعالية وقابلية توسيع طرق تقييم المنتجات البرمجية.

من الشفرة إلى قاعة المحكمة: نماذج اللغة الكبيرة كقضاة برمجيات جدد

Key Points

Abstract

Cite This Study