What type of study is this?

This is a Experimental Study study.

September 29, 2025Open Access

CODE-DITING: مقياس قائم على الاستدلال للمحاذاة الوظيفية في تقييم الشيفرة

Key Points

يتفوق CODE-DITING 1.5B على النماذج ذات المعلمات المماثلة، محققًا نتائج تُرى عادةً في نماذج أكبر بكثير.
تحدد دراستنا التجريبية فئتين من LLM-as-Judge: النماذج العامة تتفوق في الأداء لكنها تفتقر إلى الشرح.
توفر نماذج الأساس القائمة على الاستدلال شرحًا أفضل لكنها تتطلب موارد حسابية أكثر.
يدمج CODE-DITING استراتيجية التصويت بالأغلبية لضمان تقييم شيفرة قوي مع تقليل تسرب التفضيلات.

Abstract

تلعب طرق التقييم الموثوقة لمقاطع الشيفرة دورًا حيويًا في توليد الشيفرة العصبية. الطرق التقليدية، التي تعتمد إما على حلول مرجعية أو تتطلب حالات اختبار قابلة للتنفيذ، لديها قيود جوهرية في المرونة وقابلية التوسع. تقدم منهجية LLM-as-Judge الحديثة بديلًا واعدًا من خلال تقييم التناسق الوظيفي مباشرة بين وصف المشكلة والشيفرة المُنتجة. لفهم المشهد بشكل منهجي لهذه الطرق، أجرينا دراسة تجريبية شاملة عبر ثلاث مجموعات بيانات متنوعة. تكشف تحقيقاتنا عن إيجابيات وسلبيات فئتين من طرق LLM-as-Judge: الطرق المبنية على نماذج أساسية عامة تحقق أداءً جيدًا لكنها تتطلب مطالب معقدة وتفتقر إلى الشرح، بينما توفر الطرق المبنية على نماذج أساسية قائمة على الاستدلال شرحًا أفضل مع مطالب أبسط لكنها تتطلب موارد حسابية كبيرة بسبب حجم معلماتها الكبير. للتغلب على هذه القيود، نقترح CODE-DITING، طريقة تقييم شيفرة مبتكرة توازن بين الدقة والكفاءة والشرح. طورنا إطار تقطير بيانات ينقل قدرات الاستدلال بفعالية من DeepSeek-R1671B إلى نماذج CODE-DITING 1.5B و7B، مما يعزز بشكل ملحوظ شرح التقييم ويخفض التكلفة الحسابية. باستخدام استراتيجية التصويت بالأغلبية في عملية الاستدلال، يتفوق CODE-DITING 1.5B على جميع النماذج التي لها نفس حجم المعلمات ويحقق أداءً يعادل عادة نموذجًا بحجم 5 أضعاف المعلمات. يتفوق CODE-DITING 7B على GPT-4o وDeepSeek-V3 671B، على الرغم من استخدامه 1% فقط من حجم المعلمات لهذه النماذج الكبيرة. تظهر تجارب إضافية أن CODE-DITING مقاوم لتسرب التفضيلات ويمكن أن يكون بديلاً واعدًا لتقييم الشيفرة.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper