What question did this study set out to answer?

تهدف الدراسة إلى تشخيص وتحسين اتساق الاستدلال في نماذج الرؤية واللغة الكبيرة المتأثرة بالإلهاءات.

January 22, 2026

تحدي الإلهاءات في المهام متعددة الوسائط: معيار جديد لنماذج الرؤية واللغة الكبيرة

Key Points

تهدف الدراسة إلى تشخيص وتحسين اتساق الاستدلال في نماذج الرؤية واللغة الكبيرة المتأثرة بالإلهاءات.
تم تقديم معيار IR-VQA لتقييم نقاط الضعف في النماذج عبر أربعة أنماط.
تم تطوير مقاييس الاتساق الإيجابي (PC) والاتساق السلبي (NC) لتقييم استقرار الاستدلال.
تم تنفيذ آلية توجيه متعدد الوسائط ذات بوابات الصلة (RGMR) لتصفية الإلهاءات أثناء وقت الاستدلال.
لوحظ انخفاض كبير في اتساق الاستدلال في النماذج المتقدمة على معيار IR-VQA.
حسن الضبط الدقيق على IR-VQA من صلابة النموذج بشكل ملحوظ.
أظهرت RGMR فعاليتها في تعزيز أداء النموذج حيث فشلت الطرق القياسية.

Abstract

نماذج الرؤية واللغة الكبيرة (LVLMs) تعاني من "الإلهاء متعدد الوسائط"، حيث تتسبب مدخلات بصرية أو نصية محتملة ولكن غير ذات صلة في انخفاض كبير في اتساق الاستدلال وتؤدي إلى مخرجات غير موثوقة. تقدم هذه الورقة إطارًا شاملاً لتشخيص هذه المشكلة الحرجة بشكل منهجي وتقييمها وتخفيفها. نقدم ثلاثة مكونات أساسية: معيار IR-VQA واسع النطاق للكشف عن هذه الثغرات عبر أربعة أنماط؛ مقاييس تشخيصية جديدة، الاتساق الإيجابي (PC) والاتساق السلبي (NC)، التي تتجاوز الدقة القياسية لقياس استقرار استدلال النموذج بدقة؛ وآلية توجيه متعدد الوسائط ذات بوابات الصلة (RGMR)، وهي وحدة جديدة وخفيفة تقوم بشكل استباقي وديناميكي بتصفية الإلهاءات أثناء وقت الاستدلال. تكشف تجاربنا أن النماذج المتقدمة تظهر انخفاضات كبيرة في الاتساق على IR-VQA. نُظهر أن الضبط الدقيق على IR-VQA وتطبيق RGMR يحسنان بشكل كبير من صلابة النموذج حيث تفشل الطرق القياسية. يوفر تحليلنا الشامل لسلوك النماذج تحت أنواع مختلفة من الإلهاءات والفشل في الاستدلال مسارًا واضحًا لتطوير أنظمة متعددة الوسائط أكثر موثوقية.

اسأل الذكاء الاصطناعي

Bookmark