Key points are not available for this paper at this time.
لقد ثبت أن نماذج اللغة الكبيرة (LLMs) قادرة على تعميمات مثيرة للإعجاب مع عدد قليل من الأمثلة على مهام جديدة. ومع ذلك، لا تزال تميل إلى الأداء الضعيف في مسائل الاستدلال المنطقي متعددة الخطوات. هنا نقوم بتقييم شامل لنماذج اللغة الكبيرة على 50 مهمة تستكشف جوانب مختلفة من الاستدلال المنطقي. نُظهر أن نماذج اللغة تميل إلى الأداء الجيد في مهام الاستدلال أو الاستلزام أحادي الخطوة، لكنها تواجه صعوبة في ربط خطوات الاستدلال المتعددة لحل مشكلات أكثر تعقيدًا. على ضوء ذلك، نقترح إطار استدلال-اختياري (SI) يستغل نماذج اللغة الكبيرة المدربة مسبقًا كوحدات معالجة عامة، ويتناوب بين الاختيار والاستدلال لتوليد سلسلة من خطوات الاستدلال التفسيرية والسببية التي تؤدي إلى الإجابة النهائية. نُظهر أن نموذج LLM بمقدار 7 مليارات معلمات المستخدم ضمن إطار SI في إعداد تعميم بخمس أمثلة، بدون ضبط دقيق، يحقق تحسنًا في الأداء يزيد عن 100% مقارنة بأساس عادي مكافئ في مجموعة من 10 مهام استدلال منطقي. نفس النموذج في نفس الإعداد يتفوق حتى على أساس أكبر بكثير بمقدار 280 مليار معلمة في نفس مجموعة المهام. بالإضافة إلى ذلك، تُصحب الإجابات التي ينتجها إطار SI بتتبع استدلال سببي قائم على اللغة الطبيعية، مما له آثار مهمة على سلامة وموثوقية النظام.
درس Creswell وآخرون (Thu,) هذا السؤال.