April 12, 2024

تقييم نماذج اللغة الكبيرة في توليد الكود على مستوى الفئة

Key Points

Key points are not available for this paper at this time.

Abstract

مؤخرًا، تم اقتراح العديد من نماذج اللغة الكبيرة (LLMs)، والتي أظهرت مهارة متقدمة في توليد الكود. في الوقت نفسه، تم تخصيص جهود كبيرة لتقييم نماذج اللغة الكبيرة على معايير توليد الكود مثل HumanEval. رغم كونها مفيدة جدًا في مقارنة النماذج المختلفة، فإن التقييم الحالي يركز على سيناريو بسيط لتوليد الكود (أي توليد الكود على مستوى الدالة أو العبارة)، والذي يطلب أساسًا من النماذج توليد وحدة كود واحدة فقط (مثل دالة أو عبارة) لوصف طبيعي معين. يركز هذا التقييم على توليد وحدات كود مستقلة وغالبًا صغيرة الحجم، مما يجعل من غير الواضح أداء النماذج في سيناريوهات تطوير البرمجيات في العالم الحقيقي.

اسأل الذكاء الاصطناعي

Bookmark