Key points are not available for this paper at this time.
二流の畳み込みネットワークは、ビデオアクション認識タスクで強力なパフォーマンスを示しています。重要なアイデアは、畳み込みネットワークを空間的および時間的に融合させることによって、空間時間特徴を学習することです。しかし、複数の抽象レベルで空間構造と時間構造間の相関をどのようにモデル化するかは不明のままです。まず、空間ストリームは、2つの動画が類似の背景を共有する場合に失敗しがちです。次に、時間ストリームは、2つのアクションが短いスニペットで似ている場合に欺かれる可能性がありますが、長期的には異なるように見えることがあります。我々は、空間的および時間的特徴をピラミッド構造で融合させ、それらが互いに強化しあえるようにする新しい空間時間ピラミッドネットワークを提案します。アーキテクチャの観点から、我々のネットワークは、統一された空間時間損失を使用して全体としてトレーニングできる階層的な融合戦略を構成しています。一連のアブレーション実験は、各融合戦略の重要性を支持しています。技術的な観点からは、ビデオ分析タスクに空間時間コンパクトバイリニア演算子を導入します。この演算子は、空間的および時間的特徴間の完全な相互作用をキャプチャできるバイリニア融合操作の効率的なトレーニングを可能にします。我々の最終ネットワークは、標準ビデオデータセットにおいて最先端の結果を達成します。
Wang et al. (Sat,) はこの問題を研究しました。