تلعب طرق التقييم الموثوقة لمقاطع الشيفرة دورًا حيويًا في توليد الشيفرة العصبية. الطرق التقليدية، التي تعتمد إما على حلول مرجعية أو تتطلب حالات اختبار قابلة للتنفيذ، لديها قيود جوهرية في المرونة وقابلية التوسع. تقدم منهجية LLM-as-Judge الحديثة بديلًا واعدًا من خلال تقييم التناسق الوظيفي مباشرة بين وصف المشكلة والشيفرة المُنتجة. لفهم المشهد بشكل منهجي لهذه الطرق، أجرينا دراسة تجريبية شاملة عبر ثلاث مجموعات بيانات متنوعة. تكشف تحقيقاتنا عن إيجابيات وسلبيات فئتين من طرق LLM-as-Judge: الطرق المبنية على نماذج أساسية عامة تحقق أداءً جيدًا لكنها تتطلب مطالب معقدة وتفتقر إلى الشرح، بينما توفر الطرق المبنية على نماذج أساسية قائمة على الاستدلال شرحًا أفضل مع مطالب أبسط لكنها تتطلب موارد حسابية كبيرة بسبب حجم معلماتها الكبير. للتغلب على هذه القيود، نقترح CODE-DITING، طريقة تقييم شيفرة مبتكرة توازن بين الدقة والكفاءة والشرح. طورنا إطار تقطير بيانات ينقل قدرات الاستدلال بفعالية من DeepSeek-R1671B إلى نماذج CODE-DITING 1.5B و7B، مما يعزز بشكل ملحوظ شرح التقييم ويخفض التكلفة الحسابية. باستخدام استراتيجية التصويت بالأغلبية في عملية الاستدلال، يتفوق CODE-DITING 1.5B على جميع النماذج التي لها نفس حجم المعلمات ويحقق أداءً يعادل عادة نموذجًا بحجم 5 أضعاف المعلمات. يتفوق CODE-DITING 7B على GPT-4o وDeepSeek-V3 671B، على الرغم من استخدامه 1% فقط من حجم المعلمات لهذه النماذج الكبيرة. تظهر تجارب إضافية أن CODE-DITING مقاوم لتسرب التفضيلات ويمكن أن يكون بديلاً واعدًا لتقييم الشيفرة.
درس Yang وآخرون (Mon,) هذا السؤال.