Key points are not available for this paper at this time.
Die Fähigkeit, feingranulare menschliche Aktionen in einem Video zu identifizieren und zeitlich zu segmentieren, ist entscheidend für Robotik, Überwachung, Bildung und mehr. Typische Ansätze entkoppeln dieses Problem, indem sie zuerst lokale spatiotemporale Merkmale aus Videoframes extrahieren und diese dann in einen zeitlichen Klassifikator einspeisen, der hochgradige zeitliche Muster erfasst. Wir beschreiben eine Klasse von zeitlichen Modellen, die wir Temporale Faltungsnetzwerke (TCNs) nennen, die eine Hierarchie von zeitlichen Faltungen verwenden, um feingranulare Aktionssegmentierung oder -erkennung durchzuführen. Unser Encoder-Decoder-TCN verwendet Pooling und Upsampling, um langreichweitige zeitliche Muster effizient zu erfassen, während unser dilatiertes TCN dilatierte Faltungen nutzt. Wir zeigen, dass TCNs in der Lage sind, Aktionszusammensetzungen, Segmentdauern und langreichweitige Abhängigkeiten zu erfassen und um ein Vielfaches schneller zu trainieren sind als konkurrierende auf LSTM basierende rekurrente neuronale Netzwerke. Wir wenden diese Modelle auf drei herausfordernde feingranulare Datensätze an und zeigen große Verbesserungen gegenüber dem Stand der Technik.
Lea et al. (Sat,) haben diese Frage untersucht.