Key points are not available for this paper at this time.
في مجال نماذج اللغة متعددة الأنماط، يتم بناء الغالبية العظمى من الطرق على بنية مشابهة لـ LLaVA. تستخدم هذه النماذج ميزة ViT أحادية الطبقة كمحفز بصري، حيث يتم إدخالها مباشرة إلى نماذج اللغة جنبًا إلى جنب مع الرموز النصية. ومع ذلك، عند التعامل مع تسلسلات طويلة من الإشارات أو المدخلات البصرية مثل مقاطع الفيديو، يمكن أن يؤدي آلية الانتباه الذاتي في نماذج اللغة إلى عبء حسابي كبير. بالإضافة إلى ذلك، يجعل استخدام ميزات ViT أحادية الطبقة من الصعب على نماذج اللغة الكبيرة فهم الإشارات البصرية بالكامل. يقترح هذا البحث نموذج لغة متعدد الأنماط فعال لتقليل التكاليف الحاسوبية مع تمكين النموذج من إدراك الإشارات البصرية بأكبر قدر ممكن من الشمولية. تشمل طريقتنا بشكل أساسي: (1) استخدام الانتباه المتقاطع لتفاعل الصورة والنص مثل Flamingo. (2) استخدام ميزات ViT الهرمي. (3) تقديم آلية Mixture of Experts (MoE) لتعزيز فعالية النموذج. يحقق نموذجنا درجات تنافسية على مقاييس متعددة الأنماط العامة ويؤدي بشكل جيد في مهام مثل توضيح الصور وتوضيح الفيديو.
درس تشين وآخرون (الجمعة) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: