Key points are not available for this paper at this time.
لقد أدى الانتشار المتزايد لنماذج اللغة الكبيرة متعددة الوسائط (MLLMs) إلى زيادة كبيرة في الأبحاث المكرسة لتقييم هذه النماذج. ومع ذلك، تركز الدراسات الحالية للتقييم بشكل أساسي على قدرة النماذج على الفهم والاستدلال في سياق أحادي الوسائط (الرؤية فقط)، متجاهلة تقييمات الأداء الحاسمة في مهام الاستدلال متعددة الوسائط المعقدة التي تدمج السياقات المرئية والنصية. بالإضافة إلى ذلك، تمثل المهام التي تتطلب الاستدلال عبر وسائط متعددة تحديات أكبر وتتطلب فهمًا عميقًا للسياقات متعددة الوسائط. في هذه الورقة، نقدم إطار تقييم شامل يُسمى MM-InstructEval، والذي يدمج مجموعة متنوعة من المقاييس لتوفير تقييم واسع لأداء النماذج والتعليمات المختلفة عبر مجموعة واسعة من مهام الاستدلال متعددة الوسائط مع سياقات رؤية-نص. يعزز MM-InstructEval البحث في أداء نماذج MLLMs في مهام الاستدلال المعقدة متعددة الوسائط، مما يسهل تقييمًا أكثر شمولًا وتكاملاً بدون تدريب مسبق. أولاً، نستخدم مقياس "أفضل أداء" لتحديد الحد الأعلى لأداء كل نموذج عبر مجموعات بيانات مختلفة. يوفر مقياس "متوسط المكاسب النسبية" تحليلاً للأداء العام عبر النماذج والتعليمات المختلفة، في حين يقيس مقياس "الاستقرار" حساسيتها للتباينات. تاريخيًا، ركز البحث على تقييم النماذج بشكل مستقل أو تقييم التعليمات فقط، متجاهلاً التفاعل بين النماذج والتعليمات. لمعالجة هذه الفجوة، نقدم مقياس "التكيف" المصمم لقياس درجة التكيف بين النماذج والتعليمات. تم إجراء التقييمات على 31 نموذجًا (23 MLLMs) عبر 16 مجموعة بيانات متعددة الوسائط، تغطي 6 مهام، مع 10 تعليمات مميزة. التحليل الشامل يمكننا من استخراج رؤى جديدة.
درس يانغ وآخرون (سون) هذا السؤال.