Key points are not available for this paper at this time.
既存の視覚的質問応答手法は、クロスモーダルのスピurious相関や、イベントの時間性、因果関係、ビデオ全体にわたるダイナミクスを捉えられない単純化されたイベントレベルの推論プロセスに悩まされることが多い。本研究では、イベントレベルの視覚的質問応答のタスクに対処するために、クロスモーダル因果関係推論のためのフレームワークを提案する。特に、視覚と言語のモダリティ間の根底にある因果構造を発見するための一連の因果介入操作を導入する。私たちのフレームワーク、Cross-Modal Causal RelatIonal Reasoning(CMCIR)は、次の3つのモジュールを含む:i) フロントドアおよびバックドア因果介入を介して視覚と言語のスピurious相関を共同で解消するための因果認識視覚言語推論(CVLR)モジュール;ii) 視覚と言語のセマンティクス間の細かな相互作用を捉えるための空間的時間的トランスフォーマー(STT)モジュール;iii) グローバルなセマンティック認識視覚言語表現を適応的に学習するための視覚言語特徴融合(VLFF)モジュール。4つのイベントレベルデータセットに対する広範な実験により、視覚言語の因果構造を発見し、堅牢なイベントレベルの視覚的質問応答を実現する上で、私たちのCMCIRの優位性が示される。
Liu et al. (Thu,) はこの問題を研究しました。