March 7, 2024Open Access

CAT: تعزيز نموذج اللغة الكبيرة متعدد الوسائط للإجابة على الأسئلة في السيناريوهات الديناميكية الصوتية والبصرية

Key Points

Key points are not available for this paper at this time.

Abstract

يركز هذا البحث على تحدي الإجابة على الأسئلة في السيناريوهات التي تتكون من مكونات صوتية وبصرية ديناميكية غنية ومعقدة. على الرغم من أن نماذج اللغة الكبيرة متعددة الوسائط الموجودة يمكنها الاستجابة لمحتوى الصوت والصورة، إلا أن هذه الاستجابات تكون أحيانًا غامضة ولا تصف أحداثًا صوتية بصرية محددة. لتجاوز هذا القيد، نُقدم CAT، الذي يعزز نماذج اللغة الكبيرة متعددة الوسائط بثلاث طرق: 1) بخلاف الربط المباشر للصوت والفيديو، نصمم مجمع دلائل يجمع الأدلة المتعلقة بالسؤال في السيناريوهات الصوتية البصرية الديناميكية لإثراء المعرفة التفصيلية المطلوبة لنماذج اللغة الكبيرة. 2) تم تدريب CAT على مجموعة بيانات متعددة الوسائط مختلطة، مما يسمح بتطبيق مباشر في السيناريوهات الصوتية البصرية. من الجدير بالذكر أننا جمعنا مجموعة تعليمات صوتية بصرية مشتركة تُسمى AVinstruct، لتعزيز قدرة CAT على نمذجة الترابطات الدلالية المتبادلة. 3) نقترح تحسين التفضيل المباشر المدعوم بالذكاء الاصطناعي والواعي للغموض، وهي استراتيجية متخصصة في إعادة تدريب النموذج ليفضل الاستجابة غير الغامضة وتحسين القدرة على تحديد مواقع الأجسام الصوتية البصرية المحددة. تظهر نتائج تجريبية شاملة أن CAT يتفوق على الطرق الحالية في المهام متعددة الوسائط، خصوصًا في مهام الإجابة على الأسئلة الصوتية البصرية (AVQA). تم إصدار الأكواد والتعليمات التي تم جمعها على https://github.com/rikeilong/Bay-CAT.

CAT: تعزيز نموذج اللغة الكبيرة متعدد الوسائط للإجابة على الأسئلة في السيناريوهات الديناميكية الصوتية والبصرية

Key Points

Abstract

Cite This Study