July 1, 2017Open Access

ActionVLAD: Lernen von spatio-temporaler Aggregation zur Aktionsklassifikation

Key Points

Key points are not available for this paper at this time.

Abstract

In dieser Arbeit stellen wir eine neue Video-Repräsentation für die Aktionsklassifikation vor, die lokale konvolutionale Merkmale über die gesamte spatio-temporale Ausdehnung des Videos aggregiert. Dies erreichen wir durch die Integration von modernen Zwei-Strömennetzwerken 42 mit lernbarer spatio-temporaler Merkmalsaggregation 6. Die resultierende Architektur ist end-to-end trainierbar für die Klassifikation des gesamten Videos. Wir untersuchen verschiedene Strategien zum Pooling über Raum und Zeit und zur Kombination von Signalen aus den verschiedenen Strömen. Wir stellen fest, dass: (i) es wichtig ist, gemeinsam über Raum und Zeit zu poolen, aber (ii) Erscheinungs- und Bewegungsströme am besten in ihre eigenen separaten Repräsentationen aggregiert werden. Schließlich zeigen wir, dass unsere Repräsentation die Zwei-Ströme-Basisarchitektur mit einem großen Abstand übertrifft (13 % relativ) und auch andere Baselines mit vergleichbaren Basisarchitekturen bei den Video-Klassifikationsbenchmarks HMDB51, UCF101 und Charades übertrifft.

ActionVLAD: Lernen von spatio-temporaler Aggregation zur Aktionsklassifikation

Key Points

Abstract

Cite This Study