Key points are not available for this paper at this time.
Les caractéristiques spatio-temporelles et de mouvement sont deux informations complémentaires et cruciales pour la reconnaissance d'actions vidéo. Les méthodes récentes à la pointe de la technologie adoptent un flux de CNN 3D pour apprendre les caractéristiques spatio-temporelles et un autre flux pour apprendre les caractéristiques de mouvement. Dans ce travail, nous visons à encoder efficacement ces deux caractéristiques dans un cadre 2D unifié. À cette fin, nous proposons d'abord un bloc STM, qui contient un module spatio-temporel canal par canal (CSTM) pour présenter les caractéristiques spatio-temporelles et un module de mouvement canal par canal (CMM) pour encoder efficacement les caractéristiques de mouvement. Nous remplaçons ensuite les blocs résiduels originaux dans l'architecture ResNet par des blocs STM pour former un réseau STM simple mais efficace en introduisant un coût de calcul supplémentaire très limité. Des expériences approfondies montrent que le réseau STM proposé surpasse les méthodes les plus avancées sur les ensembles de données liés au temps (c'est-à-dire Something-Something v1 & v2 et Jester) et les ensembles de données liés à la scène (c'est-à-dire Kinetics-400, UCF-101 et HMDB-51) grâce à l'encodage conjoint des caractéristiques spatio-temporelles et de mouvement.
Jiang et al. (mar,) ont étudié cette question.