Key points are not available for this paper at this time.
في السنوات الأخيرة، أظهرت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) قدرات ملحوظة في مهام مثل الإجابة على الأسئلة البصرية والتفكير بالفطرة السليمة، في حين حققت نماذج الإدراك البصري تقدماً كبيراً في مهام الإدراك مثل الكشف والتجزئة. ومع ذلك، تركز نماذج MLLMs بشكل رئيسي على التفسيرات عالية المستوى للنص والصورة وتواجه صعوبة في الفهم البصري الدقيق، وتعاني نماذج الإدراك البصري عادةً من تغيرات توزيع العالم المفتوح بسبب سعة النموذج المحدودة. للتغلب على هذه التحديات، نقترح نموذج اللغة الكبير متعدد الوسائط التعزيزي المتبادل (MR-MLLM)، وهو إطار عمل جديد يعزز بتآزر كل من الإدراك البصري والفهم متعدد الوسائط. أولاً، يُقترح آلية دمج استعلام مشتركة لدمج المدخلات البصرية التفصيلية من نماذج الرؤية مع العمق اللغوي لنماذج اللغة، مما يحسن الفهم متعدد الوسائط والإدراك البصري بشكل متكامل. ثانيًا، نقترح طريقة دمج عبر متعددة الوسائط معززة بالإدراك، تتضمن أنواعاً جديدة من البيانات من مخرجات الإدراك البصري، مثل مربعات تحديد الكائنات، لالتقاط العناصر البصرية الدقيقة، مما يغني فهم كل من البيانات البصرية والنصية. بالإضافة إلى ذلك، تُقترح آلية مبتكرة لتوليد مطالبات مدمجة بالإدراك لتعزيز المعلومات الإدراكية داخل مطالبات نموذج اللغة، مما ينسق الاستجابات من الناحية السياقية والإدراكية لتفسير متعدد الوسائط أكثر دقة. تظهر التجارب المكثفة أداءً متفوقًا لـ MR-MLLM في مهام متنوعة للفهم متعدد الوسائط والإدراك البصري، وخاصة تلك التي تتطلب إدراكًا بصريًا للحالات النادرة وفهمًا لغويًا دقيقًا.
درس وانغ وآخرون (Sat,) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: