أظهرت نماذج اللغة الكبيرة (LLMs) قدرات فائقة في المهام المعقدة مثل توليد النصوص، والاستدلال، والإجابة على الأسئلة. ومع ذلك، تضعف قابلية تفسير هذه النماذج مع زيادة عدد المعلمات وتعقيدها. توجه سلاسل التفكير (CoTs) النموذج لأداء الاستدلال خطوة بخطوة وتعزز بشكل فعال قدرته على الاستدلال. تُعتبر المبررات متعددة الخطوات التي تُلفظ في سلسلة التفكير تفسيراً للنموذج نفسه على نطاق واسع. تقترح هذه الورقة نهجًا آليًا لاختبار الحساسية السلوكية للاستجابات للأدلة المستشهد بها ذاتيًا في سلاسل التفكير من منظور الكفاية والضرورة تحت تدخل السياق. على وجه التحديد، نتدخل في سلسلة الاستدلال عن طريق تغيير سياق الإدخال ونقيس التناسق السلوكي كبديل لوثوقية سلسلة التفكير. نختبر مبررات سلسلة التفكير لنماذج اللغة الكبيرة مفتوحة المصدر الرائدة في مهام الإجابة متعددة الخطوات. تظهر النتائج التجريبية أن سلسلة الاستدلال المذكورة ذاتيًا غير كافية وغير ضرورية. لا يمكن لسلسلة التفكير تفسير سلوك نماذج اللغة الكبيرة بشكل كامل.
درس تشين وآخرون (الثلاثاء) هذا السؤال.