Key points are not available for this paper at this time.
مؤخرًا، تم اقتراح العديد من نماذج اللغة الكبيرة (LLMs)، والتي أظهرت مهارة متقدمة في توليد الكود. في الوقت نفسه، تم تخصيص جهود كبيرة لتقييم نماذج اللغة الكبيرة على معايير توليد الكود مثل HumanEval. رغم كونها مفيدة جدًا في مقارنة النماذج المختلفة، فإن التقييم الحالي يركز على سيناريو بسيط لتوليد الكود (أي توليد الكود على مستوى الدالة أو العبارة)، والذي يطلب أساسًا من النماذج توليد وحدة كود واحدة فقط (مثل دالة أو عبارة) لوصف طبيعي معين. يركز هذا التقييم على توليد وحدات كود مستقلة وغالبًا صغيرة الحجم، مما يجعل من غير الواضح أداء النماذج في سيناريوهات تطوير البرمجيات في العالم الحقيقي.
درس دو وآخرون (الجمعة) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: