Key points are not available for this paper at this time.
يركز هذا البحث على تحدي الإجابة على الأسئلة في السيناريوهات التي تتكون من مكونات صوتية وبصرية ديناميكية غنية ومعقدة. على الرغم من أن نماذج اللغة الكبيرة متعددة الوسائط الموجودة يمكنها الاستجابة لمحتوى الصوت والصورة، إلا أن هذه الاستجابات تكون أحيانًا غامضة ولا تصف أحداثًا صوتية بصرية محددة. لتجاوز هذا القيد، نُقدم CAT، الذي يعزز نماذج اللغة الكبيرة متعددة الوسائط بثلاث طرق: 1) بخلاف الربط المباشر للصوت والفيديو، نصمم مجمع دلائل يجمع الأدلة المتعلقة بالسؤال في السيناريوهات الصوتية البصرية الديناميكية لإثراء المعرفة التفصيلية المطلوبة لنماذج اللغة الكبيرة. 2) تم تدريب CAT على مجموعة بيانات متعددة الوسائط مختلطة، مما يسمح بتطبيق مباشر في السيناريوهات الصوتية البصرية. من الجدير بالذكر أننا جمعنا مجموعة تعليمات صوتية بصرية مشتركة تُسمى AVinstruct، لتعزيز قدرة CAT على نمذجة الترابطات الدلالية المتبادلة. 3) نقترح تحسين التفضيل المباشر المدعوم بالذكاء الاصطناعي والواعي للغموض، وهي استراتيجية متخصصة في إعادة تدريب النموذج ليفضل الاستجابة غير الغامضة وتحسين القدرة على تحديد مواقع الأجسام الصوتية البصرية المحددة. تظهر نتائج تجريبية شاملة أن CAT يتفوق على الطرق الحالية في المهام متعددة الوسائط، خصوصًا في مهام الإجابة على الأسئلة الصوتية البصرية (AVQA). تم إصدار الأكواد والتعليمات التي تم جمعها على https://github.com/rikeilong/Bay-CAT.
درس Ye وآخرون (الخميس,) هذا السؤال.