Key points are not available for this paper at this time.
Wir beschreiben einen mittelhochgradigen Ansatz zur Aktionsrecognition. Aus einem Eingangsvideo extrahieren wir hervorstechende spatio-temporale Strukturen, indem wir Cluster von Trajektorien bilden, die als Kandidaten für die Teile einer Aktion dienen. Die Zusammenstellung dieser Cluster zu einer Aktionsklasse wird durch ein grafisches Modell gesteuert, das Erscheinen- und Bewegungsbeschränkungen für die einzelnen Teile sowie paarweise Beschränkungen für die spatio-temporalen Abhängigkeiten zwischen ihnen integriert. Während des Trainings schätzen wir die Modellparameter diskriminativ. Bei der Klassifizierung passen wir das Modell effizient an ein Video an, indem wir diskrete Optimierung verwenden. Wir validieren die Klassifikationsfähigkeit des Modells in standardisierten Benchmark-Datensätzen und veranschaulichen dessen Potenzial zur Unterstützung einer feingranularen Analyse, die nicht nur einem Video ein Label zuweist, sondern auch seine Bestandteile identifiziert und lokalisiert.
Raptis et al. (Fr,) haben diese Frage untersucht.