Key points are not available for this paper at this time.
要約 近年、ビデオベースの手–物体相互作用は研究者から広く注目されています。しかし、手の動きの複雑さと遮蔽のために、RGBビデオに基づく手–物体相互作用認識は非常に難しい課題のままです。ここでは、相互作用における手の挙動を理解するためのエンドツーエンドの時空間ネットワーク(STFormer)を提案します。このネットワークは、FlexiViT特徴抽出器、手–物体ポーズ推定器、相互作用行動分類器の3つのモジュールで構成されています。FlexiViTは各画像フレームから多スケールの特徴を抽出するために使用されています。手–物体ポーズ推定器は、各フレームに対して3D手のポーズのキーポイントおよび物体ラベルを予測するように設計されています。相互作用行動分類器は、ビデオ全体の相互作用行動カテゴリを予測するために使用されます。実験結果は、我々のアプローチが1人称手の行動データセット(FPHA)と2つの手と物体(H2O)の2つのデータセットにおいて、94.96% および 88.84% の競争力のある認識精度を達成していることを示しています。
Liang et al. (Sun,) はこの問題を研究しました。