يمكن أن تكون نماذج اللغة الكبيرة (LLMs) عرضة للهلوسات - إنتاج مخرجات غير موثوقة لا تعكس بدقة مدخلاتها أو الحقائق الخارجية أو تكون غير متسقة داخليًا. في هذا العمل، نعالج عدة تحديات للكشف بعد حدوث الهلوسة في بيئات الإنتاج. تتضمن خط أنابيب الكشف عن الهلوسة: أولًا، إنتاج درجة ثقة تمثل احتمال أن يكون الجواب المُنتج هلوسة؛ ثانيًا، معايرة الدرجة الشرطية بناءً على خصائص المدخلات والاستجابة المرشحة؛ وأخيرًا، إجراء الكشف من خلال تحديد عتبة للدرجة المعايرة. نختبر مجموعة متنوعة من طرق التقييم المتطورة على مجموعات بيانات مختلفة، تشمل مهام الإجابة على الأسئلة، والتحقق من الحقائق، والتلخيص. نستخدم نماذج LLM متعددة لضمان تقييم شامل للأداء. نُظهر أن معايرة طرق التقييم الفردية أمر حاسم لضمان اتخاذ قرارات وعيّة للمخاطر في المراحل اللاحقة. استنادًا إلى النتائج التي تشير إلى أن لا درجة فردية تؤدي أفضل أداء في جميع الحالات، نقترح إطار تقييم متعدد يجمع بين درجات مختلفة ويحقق أداءً رفيعًا عبر جميع المجموعات. نقدم أيضًا تقييمًا متعدد المستويات فعال التكلفة، يمكنه مساواة أو حتى التفوق على طرق الكشف الأكثر تكلفة، مع تقليل كبير في العبء الحسابي.
درس فالنتين وآخرون (الأربعاء،) هذا السؤال.