September 16, 2025

لا يزال العد البصري تحديًا للذكاء الاصطناعي التوليدي متعدد الوسائط.

Key Points

تواجه نماذج الذكاء الاصطناعي صعوبات في العد البصري، حيث تُظهر دقة منخفضة في تسمية كميات الأجسام أو توليدها.
تشير النتائج الرئيسية إلى أخطاء كبيرة، خاصة مع الأعداد التي تتجاوز نطاق العد الفوري، مما يعكس ردودًا معيبة حسب فئة الأجسام.
استخدم تحليلنا نماذج إجابة الأسئلة البصرية وأنظمة متنوعة من الصورة إلى النص ومن النص إلى الصورة لتقييم قوي.
تشير هذه النتائج إلى أن زيادة حجم نموذج الذكاء الاصطناعي فقط لن تضمن تحسين مهارات العد دون جهود تطوير استراتيجية.

Abstract

يمكن للعديد من أنواع الحيوانات تقدير عدد الأجسام في مشهد بصري بالنظر إليه لمحة واحدة فقط، ويمكن للبشر تحديد عدد مجموعة بشكل دقيق باستخدام إجراءات العد المنهجية. بالمقابل، لوحظ أن أنظمة الذكاء الاصطناعي المتطورة حتى الآن لديها مهارات عد محدودة جدًا. في هذا العمل، نقترح مهمتين قياسيتين مستلهمتين من علم النفس المعرفي تتيحان تقييم قدرات العد البصري لنماذج الأساس متعددة الوسائط بدقة، مما يوفر مقياسًا موضوعيًا لإحساسهم الرقمي ومستوى العد لديهم. نظرنا في نماذج إجابة الأسئلة البصرية الشائعة (BLIP، LLaVA وViLT) بالإضافة إلى أنظمة الذكاء الاصطناعي المتقدمة من الصورة إلى النص (Gemini، GPT وQwen) ومن النص إلى الصورة (DALL-E، FLUX وStable Diffusion). تُظهر تحليلاتنا أن حتى أكثر النماذج تقدمًا لا يمكنها بشكل موثوق تسمية عدد الأجسام في المحفزات البصرية البسيطة أو إنشاء صور تحتوي على عدد مستهدف من العناصر، كما يتضح من دقتها المنخفضة في كلا النوعين من المهام. خاصة بالنسبة للأعداد خارج نطاق العد الفوري، تكون ردودهم غالبًا بعيدة عن الكمية المستهدفة، ومقارنة بسلوك الإنسان، في العديد من الحالات يعتمد توزيع الأخطاء على فئة الأجسام. كما لاحظنا بعض الأخطاء البارزة مع الأعداد الصغيرة. توضح نتائجنا أن تطوير فهم بصري بديهي للأعداد لا يزال تحديًا لنماذج الذكاء الاصطناعي وأن مجرد زيادة حجم النموذج قد لا تكون استراتيجية قابلة للتطبيق لتعزيز ظهور مهارات العد المنهجية. نُصدر الشيفرة الكاملة لمقياسنا لتسهيل تقييم مهارات العد في أنظمة الذكاء الاصطناعي المستقبلية.

اسأل الذكاء الاصطناعي

Bookmark