What question did this study set out to answer?

الهدف هو تقييم قابلية تفسير سلاسل التفكير في نماذج اللغة الكبيرة، مع التركيز على قدراتها في الاستدلال.

March 26, 2026Open Access

اختبار قابلية تفسير سلسلة التفكير لنماذج اللغة الكبيرة

Key Points

الهدف هو تقييم قابلية تفسير سلاسل التفكير في نماذج اللغة الكبيرة، مع التركيز على قدراتها في الاستدلال.
تم اقتراح نهج آلي لاختبار الاستجابات للأدلة المستشهد بها ذاتيًا في سلاسل التفكير تحت تدخل السياق.
تم التدخل في سلاسل الاستدلال من خلال تغيير سياق الإدخال.
تم قياس التناسق السلوكي كبديل لمدى وفاء سلسلة التفكير.
أُجريت الاختبارات على نماذج اللغة الكبيرة مفتوحة المصدر السائدة باستخدام مهام الإجابة متعددة الخطوات.
تشير النتائج التجريبية إلى أن سلاسل التفكير غير كافية للتفسير الكامل.
تبين أن الاستدلال المقدم في سلاسل التفكير غير ضروري في بعض السياقات.
قدرة سلاسل التفكير على تفسير سلوك النموذج محدودة.

Abstract

أظهرت نماذج اللغة الكبيرة (LLMs) قدرات فائقة في المهام المعقدة مثل توليد النصوص، والاستدلال، والإجابة على الأسئلة. ومع ذلك، تضعف قابلية تفسير هذه النماذج مع زيادة عدد المعلمات وتعقيدها. توجه سلاسل التفكير (CoTs) النموذج لأداء الاستدلال خطوة بخطوة وتعزز بشكل فعال قدرته على الاستدلال. تُعتبر المبررات متعددة الخطوات التي تُلفظ في سلسلة التفكير تفسيراً للنموذج نفسه على نطاق واسع. تقترح هذه الورقة نهجًا آليًا لاختبار الحساسية السلوكية للاستجابات للأدلة المستشهد بها ذاتيًا في سلاسل التفكير من منظور الكفاية والضرورة تحت تدخل السياق. على وجه التحديد، نتدخل في سلسلة الاستدلال عن طريق تغيير سياق الإدخال ونقيس التناسق السلوكي كبديل لوثوقية سلسلة التفكير. نختبر مبررات سلسلة التفكير لنماذج اللغة الكبيرة مفتوحة المصدر الرائدة في مهام الإجابة متعددة الخطوات. تظهر النتائج التجريبية أن سلسلة الاستدلال المذكورة ذاتيًا غير كافية وغير ضرورية. لا يمكن لسلسلة التفكير تفسير سلوك نماذج اللغة الكبيرة بشكل كامل.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper