Key points are not available for this paper at this time.
Wir stellen ein allgemeines und flexibles videobasiertes Framework zur Modellierung von Aktionsmodellen in Videos vor. Diese Methode, genannt temporal segment network (TSN), zielt darauf ab, langreichweitige temporale Strukturen mit einem neuen segmentbasierten Sampling- und Aggregationsschema zu modellieren. Dieses einzigartige Design ermöglicht dem TSN-Framework, Aktionsmodelle effizient durch Nutzung des gesamten Videos zu erlernen. Die erlernten Modelle können einfach für die Aktionserkennung in sowohl getrimmten als auch ungetrimmten Videos eingesetzt werden, jeweils mit einfacher Durchschnitts-Pooling- und Multiskalen-Temporalfenster-Integration. Wir untersuchen auch eine Reihe guter Praktiken für die Implementierung des TSN-Frameworks bei begrenzten Trainingsdaten. Unser Ansatz erzielt den Stand der Technik auf fünf herausfordernden Aktionserkennungsbenchmarks: HMDB51 (71,0 Prozent), UCF101 (94,9 Prozent), THUMOS14 (80,1 Prozent), ActivityNet v1.2 (89,6 Prozent) und Kinetics400 (75,7 Prozent). Zusätzlich kann unsere Methode unter Verwendung der vorgeschlagenen RGB-Differenz als einfache Bewegungsrepräsentation immer noch eine wettbewerbsfähige Genauigkeit auf UCF101 (91,0 Prozent) erreichen, während sie mit 340 FPS läuft. Darüber hinaus gewannen wir basierend auf dem vorgeschlagenen TSN-Framework die Videoklassifikations-Kategorie bei der ActivityNet Challenge 2016 unter 24 Teams.
Wang et al. (Mon,) untersuchten diese Fragestellung.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: