Key points are not available for this paper at this time.
La capacité à identifier et à segmenter temporellement des actions humaines fines tout au long d'une vidéo est cruciale pour la robotique, la surveillance, l'éducation et au-delà. Les approches typiques découpent ce problème en extrayant d'abord des caractéristiques spatio-temporelles locales à partir des images vidéo, puis en les alimentant dans un classificateur temporel qui capte des motifs temporels de haut niveau. Nous décrivons une classe de modèles temporels, que nous appelons Réseaux de Convolution Temporelle (TCNs), qui utilisent une hiérarchie de convolutions temporelles pour réaliser la segmentation ou la détection d'actions fines. Notre TCN Encodeur-Décodeur utilise le pooling et le suréchantillonnage pour capturer efficacement des motifs temporels à long terme, tandis que notre TCN Dilaté utilise des convolutions dilatées. Nous montrons que les TCNs sont capables de capturer des compositions d'actions, des durées de segments et des dépendances à long terme, et ils sont de plusieurs ordres de grandeur plus rapides à former que les réseaux de neurones récurrents basés sur LSTM concurrents. Nous appliquons ces modèles à trois ensembles de données fins et difficiles et montrons des améliorations considérables par rapport à l'état de l'art.
Lea et al. (Sat,) ont étudié cette question.