What question did this study set out to answer?

مقارنة أداء النماذج اللغوية الكبيرة والأساليب العصبية الرمزية في مهام الاستدلال المجرد.

February 26, 2026

نحو التعلم للاستدلال: مقارنة النماذج اللغوية الكبيرة مع النماذج العصبية الرمزية في العلاقات الحسابية في الاستدلال المجرد

Key Points

مقارنة أداء النماذج اللغوية الكبيرة والأساليب العصبية الرمزية في مهام الاستدلال المجرد.
مقارنة LLMs مثل GPT-4 وLlama-3 مع النموذج العصبي الرمزي ARLC على مصفوفات رافن التقدمية.
استخدام محفزات بصرية تفترض وجود وحدة إدراك بصري كنوز لعزل قدرة الاستدلال.
اختبار الدقة على مجموعة بيانات I-RAVEN مع أحجام مصفوفات متغيرة ونطاقات ديناميكية لقيم الخصائص.
أظهرت LLMs دقة أقل من 10% في القواعد الحسابية مع زيادة النطاقات الديناميكية.
حقق ARLC دقة قريبة من المثالية في كوكبة المركز من I-RAVEN، مما يدل على أداء متفوق في الاستدلال الحسابي.

Abstract

تقارن هذه الدراسة بين النماذج اللغوية الكبيرة (LLMs) والأساليب العصبية الرمزية في حل مصفوفات رافن التقدمية (RPMs)، وهو اختبار مرئي للاستدلال المجرد يتطلب فهم القواعد الرياضية مثل التقدم أو الجمع الحسابي. توفر الخصائص المرئية مباشرة كمحفزات نصية، مما يفترض وجود وحدة إدراك بصري كنوز، يسمح لنا بقياس قدرة النموذج على الاستدلال المجرد بشكل معزول. على الرغم من تقديم تمثيلات ذات بنية تركيبية من إدراك بصري كنوز وتقنيات تحفيز متقدمة، إلا أن كلاً من GPT-4 وLlama-3 70B لا يمكنهما تحقيق دقة مثالية في كوكبة المركز من مجموعة بيانات I-RAVEN. تكشف تحليلاتنا أن السبب الجذري يكمن في ضعف LLM في فهم وتنفيذ القواعد الحسابية. كعلاج محتمل، نقوم بتحليل متعلم القاعدة الاستدلالية مع وعي السياق (ARLC)، وهو نهج عصبي رمزي يتعلم الاستدلال باستخدام هياكل رمزية متجهة. هنا، يتم تمثيل المفاهيم باستخدام متجهات موزعة بحيث تحدد مضاعفات النقاط بين المتجهات المشفرة نواة التشابه، وأداء العمليات على المتجهات بصفة عنصر عنصر يجري عملية الجمع/الطرح على القيم المشفرة. نجد أن ARLC يحقق دقة قريبة من المثالية في كوكبة المركز من I-RAVEN، مما يدل على وفاء عالٍ في القواعد الحسابية. للضغط على قدرات تعميم الطول، نوسع اختبارات RPM لمصفوفات أكبر (3 × 10 بدلاً من 3 × 3 المعتادة) ونطاقات ديناميكية أكبر لقيم الخصائص (من 10 حتى 1000). نجد أن دقة LLM في حل القواعد الحسابية تنخفض إلى أقل من 10%، خاصة مع توسع النطاق الديناميكي، بينما يمكن لـ ARLC الحفاظ على دقة عالية بسبب محاكاة العمليات الرمزية على القيم الموزعة.

Bookmark

نحو التعلم للاستدلال: مقارنة النماذج اللغوية الكبيرة مع النماذج العصبية الرمزية في العلاقات الحسابية في الاستدلال المجرد

Key Points

Abstract

Cite This Study