What question did this study set out to answer?

الهدف هو تعزيز موثوقية مخرجات نماذج اللغة الكبيرة أثناء الاستدلال من خلال ضمان الاتساق الداخلي.

January 25, 2026Open Access

تنظيم الاتساق التقييمي (ECR): طبقة استقرار أثناء الاستدلال لنشر موثوق لنماذج اللغة الكبيرة في المؤسسات

Key Points

الهدف هو تعزيز موثوقية مخرجات نماذج اللغة الكبيرة أثناء الاستدلال من خلال ضمان الاتساق الداخلي.
تم تقديم تنظيم الاتساق التقييمي (ECR) كطبقة استقرار أثناء الاستدلال.
تم تقييم الاستجابات المرشحة بناءً على مقاييس الاتساق المعرفة.
تم تطبيق تطبيع لمقاييس الاتساق إلى مقياس مشترك بين [0،1].
تم تطوير خوارزمية اختيار لاختيار الاستجابات المستقرة تحت حالة عدم اليقين.
تم تحديد مقاييس الاتساق الرئيسية مثل التباين التقييمي ومعدل التناقض.
أظهرت النتائج أن ECR يحسن اتساق الاستجابات وموثوقيتها في مخرجات نماذج اللغة الكبيرة.
تم تقديم مثال رقمي يوضح فعالية ECR في تثبيت الاستجابات.

Abstract

يواجه نشر نماذج اللغة الكبيرة (LLMs) في المؤسسات تحديات مستمرة أثناء وقت الاستدلال: الهلوسات المعبرة عنها بثقة عالية، وعدم الاتساق الداخلي عبر التفاعلات، والانعكاسات غير المبررة للمواقف تحت ضغط المستخدم، والتكيف الزائد مع التفضيلات المتصورة. بينما حقق العمل الحديث في تقييم LLM وأخذ العينات الذاتية الاتساق تقدمًا في بعض هذه القضايا، لا يزال آلية استقرار مخصصة أثناء وقت الاستدلال—مختلفة عن المحاذاة أثناء التدريب والحواجز الخارجية—غير مستكشفة بشكل كاف. تقدم هذه الورقة تنظيم الاتساق التقييمي (ECR)، وهي طبقة استقرار أثناء وقت الاستدلال تقيد عدم الاتساق الداخلي عبر آفاق التفكير القصيرة باستخدام معايير صريحة وقابلة للقياس. لا يقوم ECR بتعديل معلمات النموذج، ولا يتطلب إعادة تدريب، ولا يفترض الوصول إلى الحقيقة الأرضية. بدلاً من ذلك، يقيّم مسارات الاستجابات المرشحة المتعددة باستخدام مقاييس اتساق معرفية رياضيًا — مثل التباين التقييمي، معدل التناقض، سلاسة المسار، استقرار التوقع، وتباعد السياسة—كلها تم تطبيعها إلى المجال 0,1، ويختار الاستجابات التي تظل مستقرة داخليًا تحت حالة عدم اليقين. يتموضع ECR صراحةً كآلية احتواء وموثوقية للأنظمة الذكية الناضجة، وليس كهدف تحسين، أو ضمان محاذاة، أو نظام تحقق من الحقيقة. نقدم تعريفات رسمية مع مخططات تطبيع صريحة، خوارزمية اختيار أثناء الاستدلال، شروط نضج النظام، حدود النطاق، مثال رقمي مُطبق، وإرشادات عملية للنشر. الإطار خفيف الوزن، يمكن تدقيقه، محايد للبائع، ومصمم لتلبية الاحتياجات العملية والمفاهيمية لنشر الذكاء الاصطناعي في المؤسسات.

تنظيم الاتساق التقييمي (ECR): طبقة استقرار أثناء الاستدلال لنشر موثوق لنماذج اللغة الكبيرة في المؤسسات

Key Points

Abstract

Cite This Study