يمكن للعديد من أنواع الحيوانات تقدير عدد الأجسام في مشهد بصري بالنظر إليه لمحة واحدة فقط، ويمكن للبشر تحديد عدد مجموعة بشكل دقيق باستخدام إجراءات العد المنهجية. بالمقابل، لوحظ أن أنظمة الذكاء الاصطناعي المتطورة حتى الآن لديها مهارات عد محدودة جدًا. في هذا العمل، نقترح مهمتين قياسيتين مستلهمتين من علم النفس المعرفي تتيحان تقييم قدرات العد البصري لنماذج الأساس متعددة الوسائط بدقة، مما يوفر مقياسًا موضوعيًا لإحساسهم الرقمي ومستوى العد لديهم. نظرنا في نماذج إجابة الأسئلة البصرية الشائعة (BLIP، LLaVA وViLT) بالإضافة إلى أنظمة الذكاء الاصطناعي المتقدمة من الصورة إلى النص (Gemini، GPT وQwen) ومن النص إلى الصورة (DALL-E، FLUX وStable Diffusion). تُظهر تحليلاتنا أن حتى أكثر النماذج تقدمًا لا يمكنها بشكل موثوق تسمية عدد الأجسام في المحفزات البصرية البسيطة أو إنشاء صور تحتوي على عدد مستهدف من العناصر، كما يتضح من دقتها المنخفضة في كلا النوعين من المهام. خاصة بالنسبة للأعداد خارج نطاق العد الفوري، تكون ردودهم غالبًا بعيدة عن الكمية المستهدفة، ومقارنة بسلوك الإنسان، في العديد من الحالات يعتمد توزيع الأخطاء على فئة الأجسام. كما لاحظنا بعض الأخطاء البارزة مع الأعداد الصغيرة. توضح نتائجنا أن تطوير فهم بصري بديهي للأعداد لا يزال تحديًا لنماذج الذكاء الاصطناعي وأن مجرد زيادة حجم النموذج قد لا تكون استراتيجية قابلة للتطبيق لتعزيز ظهور مهارات العد المنهجية. نُصدر الشيفرة الكاملة لمقياسنا لتسهيل تقييم مهارات العد في أنظمة الذكاء الاصطناعي المستقبلية.
درس Testolin et al. (الأربعاء) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: