تقارن هذه الدراسة بين النماذج اللغوية الكبيرة (LLMs) والأساليب العصبية الرمزية في حل مصفوفات رافن التقدمية (RPMs)، وهو اختبار مرئي للاستدلال المجرد يتطلب فهم القواعد الرياضية مثل التقدم أو الجمع الحسابي. توفر الخصائص المرئية مباشرة كمحفزات نصية، مما يفترض وجود وحدة إدراك بصري كنوز، يسمح لنا بقياس قدرة النموذج على الاستدلال المجرد بشكل معزول. على الرغم من تقديم تمثيلات ذات بنية تركيبية من إدراك بصري كنوز وتقنيات تحفيز متقدمة، إلا أن كلاً من GPT-4 وLlama-3 70B لا يمكنهما تحقيق دقة مثالية في كوكبة المركز من مجموعة بيانات I-RAVEN. تكشف تحليلاتنا أن السبب الجذري يكمن في ضعف LLM في فهم وتنفيذ القواعد الحسابية. كعلاج محتمل، نقوم بتحليل متعلم القاعدة الاستدلالية مع وعي السياق (ARLC)، وهو نهج عصبي رمزي يتعلم الاستدلال باستخدام هياكل رمزية متجهة. هنا، يتم تمثيل المفاهيم باستخدام متجهات موزعة بحيث تحدد مضاعفات النقاط بين المتجهات المشفرة نواة التشابه، وأداء العمليات على المتجهات بصفة عنصر عنصر يجري عملية الجمع/الطرح على القيم المشفرة. نجد أن ARLC يحقق دقة قريبة من المثالية في كوكبة المركز من I-RAVEN، مما يدل على وفاء عالٍ في القواعد الحسابية. للضغط على قدرات تعميم الطول، نوسع اختبارات RPM لمصفوفات أكبر (3 × 10 بدلاً من 3 × 3 المعتادة) ونطاقات ديناميكية أكبر لقيم الخصائص (من 10 حتى 1000). نجد أن دقة LLM في حل القواعد الحسابية تنخفض إلى أقل من 10%، خاصة مع توسع النطاق الديناميكي، بينما يمكن لـ ARLC الحفاظ على دقة عالية بسبب محاكاة العمليات الرمزية على القيم الموزعة.
درس هيرشي وآخرون (سون،) هذا السؤال.