Key points are not available for this paper at this time.
Nous présentons des réseaux SlowFast pour la reconnaissance vidéo. Notre modèle implique (i) un chemin lent, fonctionnant à un faible taux de images, pour capturer les sémantiques spatiales, et (ii) un chemin rapide, fonctionnant à un taux d'images élevé, pour capturer le mouvement à une fine résolution temporelle. Le chemin rapide peut être rendu très léger en réduisant sa capacité de canal, mais il peut apprendre des informations temporelles utiles pour la reconnaissance vidéo. Nos modèles atteignent de solides performances tant pour la classification que pour la détection d'actions dans les vidéos, et de grandes améliorations sont identifiées comme des contributions de notre concept SlowFast. Nous rapportons une précision de pointe sur les principaux benchmarks de reconnaissance vidéo, Kinetics, Charades et AVA. Le code a été rendu disponible à : https://github.com/facebookresearch/SlowFast.
Feichtenhofer et al. (Mar), ont étudié cette question.