July 31, 2024Open Access

الكشف الفعال من حيث التكلفة عن الهلوسة لنماذج اللغة الكبيرة

Key Points

تتفوق طرق الكشف الفعالة من حيث التكلفة على الأساليب التقليدية، مما يقلل من الأعباء الحاسوبية بشكل كبير.
تعد معايرة طرق التصنيف الفردية أساسية، حيث تحسن اتخاذ القرار استنادًا إلى تقييمات المخاطر عبر مهام متنوعة.
يقوم الدراسة بمعايرة أحدث طرق التصنيف في مهام الإجابة على الأسئلة، والتحقق من الحقائق، والتلخيص من أجل تقييم شامل لمقاييس الأداء والفروقات في المخرجات التي أنشأتها نماذج اللغة الكبيرة خلال مراحل الاختبار والتحققات المعنية بالتنبؤات الناشئة ضمن سياقات وسيناريوهات متميزة. تشير الاقتراح لإنشاء إطار عمل متعدد قوانين التصنيف إلى أنه يمكن أن يحقق أداءً ممتازًا عبر جميع مجموعات البيانات التي تم تحليلها، مما يعزز التنوع في التطبيقات التي تتطلب مخرجات موثوقة من نماذج اللغة تحت ظروف متغيرة.

Abstract

يمكن أن تكون نماذج اللغة الكبيرة (LLMs) عرضة للهلوسات - إنتاج مخرجات غير موثوقة لا تعكس بدقة مدخلاتها أو الحقائق الخارجية أو تكون غير متسقة داخليًا. في هذا العمل، نعالج عدة تحديات للكشف بعد حدوث الهلوسة في بيئات الإنتاج. تتضمن خط أنابيب الكشف عن الهلوسة: أولًا، إنتاج درجة ثقة تمثل احتمال أن يكون الجواب المُنتج هلوسة؛ ثانيًا، معايرة الدرجة الشرطية بناءً على خصائص المدخلات والاستجابة المرشحة؛ وأخيرًا، إجراء الكشف من خلال تحديد عتبة للدرجة المعايرة. نختبر مجموعة متنوعة من طرق التقييم المتطورة على مجموعات بيانات مختلفة، تشمل مهام الإجابة على الأسئلة، والتحقق من الحقائق، والتلخيص. نستخدم نماذج LLM متعددة لضمان تقييم شامل للأداء. نُظهر أن معايرة طرق التقييم الفردية أمر حاسم لضمان اتخاذ قرارات وعيّة للمخاطر في المراحل اللاحقة. استنادًا إلى النتائج التي تشير إلى أن لا درجة فردية تؤدي أفضل أداء في جميع الحالات، نقترح إطار تقييم متعدد يجمع بين درجات مختلفة ويحقق أداءً رفيعًا عبر جميع المجموعات. نقدم أيضًا تقييمًا متعدد المستويات فعال التكلفة، يمكنه مساواة أو حتى التفوق على طرق الكشف الأكثر تكلفة، مع تقليل كبير في العبء الحسابي.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper