Key points are not available for this paper at this time.
ビデオ質問応答は、シーン理解と視覚データ取得に向けた重要なタスクです。しかし、現在の視覚質問応答の研究は主に単一の静止画像に焦点を当てており、これは現実世界の動的かつ連続的な視覚データとは異なります。彼らのアプローチは、ビデオ内の時間的情報を活用することができません。本論文では、自由形式のオープンエンドビデオ質問応答タスクを紹介します。オープンエンドな回答は、Visual-QAの一般的な選択肢タスクと比較してより広い応用を可能にします。まず、私たちは自動質問生成アプローチを用いてオープンエンドのVideo-QA用のデータセットを提案します。その後、逐次的なビデオ注意モデルと時間的質問注意モデルを提案します。これらの2つのモデルは、ビデオと質問に注意メカニズムを適用しながら、ガイドの逐次的および時間的構造を保持します。2つのモデルは統一された注意のモデルに統合されます。ビデオと質問がエンコードされた後、回答はデコーダーによって私たちのモデルから単語単位で生成されます。最後に、提案したデータセットに対して私たちのモデルを評価します。実験結果は、私たちが提案したモデルの効果を示しています.
Xue et al. (Mon,) はこの問題を研究しました。