CAT: تعزيز نموذج اللغة الكبير متعدد الوسائط للإجابة على الأسئلة في السيناريوهات الصوتية-البصرية الديناميكية | Synapse