مؤخرًا، تم استخدام نماذج اللغة الكبيرة (LLMs) بشكل متزايد لأتمتة مهام هندسة البرمجيات مثل توليد الشفرة والتلخيص. ومع ذلك، لا تزال تقييم جودة المنتجات البرمجية التي تنتجها نماذج LLM يمثل تحديًا. التقييم البشري، رغم فعاليته، مكلف للغاية ويستغرق وقتًا طويلاً. تعتمد المقاييس الآلية التقليدية مثل BLEU على مراجع عالية الجودة وتعاني في التقاط الجوانب الدقيقة لجودة البرمجيات، مثل سهولة القراءة والقيمة العملية. استجابة لذلك، ظهر نموذج LLM كقاضٍ، الذي يستخدم نماذج LLM للتقييم الآلي. وبما أن نماذج LLM عادة ما تُدرّب لتتوافق مع الحكم البشري وتمتلك قدرات قوية في البرمجة ومهارات التفكير المنطقي، فهي تحمل وعدًا كبدائل فعالة من حيث التكلفة وقابلة للتوسع للتقيم البشري. مع ذلك، فإن أبحاث LLM كقاضٍ في مجتمع هندسة البرمجيات لا تزال في مراحلها المبكرة، وهناك حاجة للعديد من الاختراقات. يهدف هذا البحث الاستشرافي SE 2030 إلى توجيه مجتمع البحث نحو تطوير نموذج LLM كقاضٍ لتقييم منتجات البرمجيات التي تنتجها نماذج LLM، مع مشاركة المسارات المحتملة للبحث لتحقيق هذا الهدف. نقدم مراجعة أدبية للدراسات القائمة في هندسة البرمجيات حول LLM كقاضٍ ونرى هذه الأُطُر كبدائل بشرية موثوقة وقوية وقابلة للتوسع قادرة على تقييم المنتجات البرمجية بتقييمات متسقة ومتعددة الأبعاد بحلول عام 2030 وما بعده. للتحقق من هذه الرؤية، نحليل قيود الدراسات الحالية، ونحدد فجوات البحث الرئيسية، ونضع خارطة طريق مفصلة لتوجيه التطورات المستقبلية لنموذج LLM كقاضٍ في هندسة البرمجيات. وعلى الرغم من أنها ليست دليلًا نهائيًا، فإن عملنا يهدف إلى تعزيز المزيد من البحث وتبني أُطُر LLM كقاضٍ داخل مجتمع هندسة البرمجيات، مما يحسن في نهاية المطاف فعالية وقابلية توسيع طرق تقييم المنتجات البرمجية.
درس هو وآخرون (Mon,) هذا السؤال.