July 19, 2024Open Access

EVLM: نموذج كفاءة الرؤية واللغة لفهم الصور

Key Points

Key points are not available for this paper at this time.

Abstract

في مجال نماذج اللغة متعددة الأنماط، يتم بناء الغالبية العظمى من الطرق على بنية مشابهة لـ LLaVA. تستخدم هذه النماذج ميزة ViT أحادية الطبقة كمحفز بصري، حيث يتم إدخالها مباشرة إلى نماذج اللغة جنبًا إلى جنب مع الرموز النصية. ومع ذلك، عند التعامل مع تسلسلات طويلة من الإشارات أو المدخلات البصرية مثل مقاطع الفيديو، يمكن أن يؤدي آلية الانتباه الذاتي في نماذج اللغة إلى عبء حسابي كبير. بالإضافة إلى ذلك، يجعل استخدام ميزات ViT أحادية الطبقة من الصعب على نماذج اللغة الكبيرة فهم الإشارات البصرية بالكامل. يقترح هذا البحث نموذج لغة متعدد الأنماط فعال لتقليل التكاليف الحاسوبية مع تمكين النموذج من إدراك الإشارات البصرية بأكبر قدر ممكن من الشمولية. تشمل طريقتنا بشكل أساسي: (1) استخدام الانتباه المتقاطع لتفاعل الصورة والنص مثل Flamingo. (2) استخدام ميزات ViT الهرمي. (3) تقديم آلية Mixture of Experts (MoE) لتعزيز فعالية النموذج. يحقق نموذجنا درجات تنافسية على مقاييس متعددة الأنماط العامة ويؤدي بشكل جيد في مهام مثل توضيح الصور وتوضيح الفيديو.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper