Key points are not available for this paper at this time.
لقد أدت ارتفاع نماذج اللغة الكبيرة (LLMs) بشكل كبير إلى تقدم العديد من التطبيقات في مهام هندسة البرمجيات، لا سيما في توليد التعليمات البرمجية. على الرغم من الأداء الواعد، فإن نماذج اللغة الكبيرة معرضة لتوليد الهلاوس، مما يعني أن هذه النماذج قد تنتج مخرجات تنحرف عن نية المستخدمين، وتظهر تناقضات داخلية، أو تتعارض مع المعرفة الواقعية، مما يجعل نشرها محفوفًا بالمخاطر في نطاق واسع من التطبيقات. تركز الأعمال الحالية أساسًا على دراسة الهلاوس في مجال توليد اللغة الطبيعية (NLG)، مما يترك فجوة في فهم أنواع ومدى الهلاوس في سياق توليد التعليمات البرمجية. لسد هذه الفجوة، أجرينا تحليلًا ثيميًا للكود الذي تم إنشاؤه بواسطة نماذج اللغة الكبيرة لتلخيص وتصنيف الهلاوس الموجودة فيه. أنشأت دراستنا تصنيفًا شاملاً للهلاوس في الكود الذي تم توليده بواسطة نماذج اللغة الكبيرة، يشمل 5 فئات رئيسية من الهلاوس اعتمادًا على الأهداف المتعارضة والدرجات المتفاوتة من الانحراف الملاحظة في توليد التعليمات البرمجية. علاوة على ذلك، قمنا بتحليل منهجي لتوزيع الهلاوس، مستكشفين التغيرات بين نماذج اللغة الكبيرة المختلفة وترابطها مع صحة التعليمات البرمجية. بناءً على النتائج، اقترحنا HalluCode، وهو معيار لتقييم أداء نماذج التعليمات البرمجية في التعرف على الهلاوس. تظهر تجارب التعرف على الهلاوس وتخفيفها باستخدام HalluCode وHumanEval أن النماذج الحالية تواجه تحديات كبيرة في التعرف على الهلاوس، لا سيما في تحديد أنواعها، وعادةً ما تكون غير قادرة على تخفيف الهلاوس. نعتقد أن نتائجنا ستسلط الضوء على أبحاث المستقبل حول تقييم الاكتشاف وتخفيف الهلاوس، مما يمهد السبيل لبناء نماذج تعليمات برمجية أكثر فعالية وموثوقية في المستقبل.
درس Liu et al. (Mon,) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: