Key points are not available for this paper at this time.
تعاني الأساليب الحالية للإجابة على الأسئلة البصرية غالبًا من تناسبات كاذبة عبر الأنماط وعملية تفكير مبسطة على مستوى الأحداث تفشل في التقاط الزمنية، والسببية، والديناميات التي تمتد عبر الفيديو. في هذا العمل، ولتحديد مهمة الإجابة على الأسئلة البصرية على مستوى الأحداث، نقترح إطار عمل للتفكير السببي العلائقي عبر الأنماط. على وجه الخصوص، يتم تقديم مجموعة من عمليات التدخل السببي لاكتشاف الهياكل السببية الأساسية عبر الأنماط البصرية واللغوية. يشمل إطار عملنا، الذي يُطلق عليه اسم التفكير السببي العلائقي عبر الأنماط (CMCIR)، ثلاثة وحدات: ١) وحدة التفكير البصري-اللغوي المدرك للسببية (CVLR) لفك ارتباط التناسبات الكاذبة بصريًا ولغويًا بالتعاون عبر تدخلات سببية من الباب الأمامي والخلفي؛ ٢) وحدة المحول الزمني-المكاني (STT) لالتقاط التفاعلات الدقيقة بين الدلالات البصرية واللغوية؛ ٣) وحدة دمج الميزات البصرية-اللغوية (VLFF) لتعلم التمثيلات البصرية-اللغوية المدركة للدلالة بشكل عالمي وبشكل تكيّفي. تُظهر التجارب الكثيفة على أربعة مجموعات بيانات على مستوى الأحداث تفوق إطار عملنا CMCIR في اكتشاف الهياكل السببية بين الأنماط البصرية واللغوية وتحقيق إجابة قوية للأسئلة البصرية على مستوى الأحداث.
درس ليو وآخرون (الخميس) هذا السؤال.