نماذج الرؤية واللغة الكبيرة (LVLMs) تعاني من "الإلهاء متعدد الوسائط"، حيث تتسبب مدخلات بصرية أو نصية محتملة ولكن غير ذات صلة في انخفاض كبير في اتساق الاستدلال وتؤدي إلى مخرجات غير موثوقة. تقدم هذه الورقة إطارًا شاملاً لتشخيص هذه المشكلة الحرجة بشكل منهجي وتقييمها وتخفيفها. نقدم ثلاثة مكونات أساسية: معيار IR-VQA واسع النطاق للكشف عن هذه الثغرات عبر أربعة أنماط؛ مقاييس تشخيصية جديدة، الاتساق الإيجابي (PC) والاتساق السلبي (NC)، التي تتجاوز الدقة القياسية لقياس استقرار استدلال النموذج بدقة؛ وآلية توجيه متعدد الوسائط ذات بوابات الصلة (RGMR)، وهي وحدة جديدة وخفيفة تقوم بشكل استباقي وديناميكي بتصفية الإلهاءات أثناء وقت الاستدلال. تكشف تجاربنا أن النماذج المتقدمة تظهر انخفاضات كبيرة في الاتساق على IR-VQA. نُظهر أن الضبط الدقيق على IR-VQA وتطبيق RGMR يحسنان بشكل كبير من صلابة النموذج حيث تفشل الطرق القياسية. يوفر تحليلنا الشامل لسلوك النماذج تحت أنواع مختلفة من الإلهاءات والفشل في الاستدلال مسارًا واضحًا لتطوير أنظمة متعددة الوسائط أكثر موثوقية.
درس يانغ وآخرون (خم) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: