Key points are not available for this paper at this time.
In dieser Arbeit stellen wir eine neue Video-Repräsentation für die Aktionsklassifikation vor, die lokale konvolutionale Merkmale über die gesamte spatio-temporale Ausdehnung des Videos aggregiert. Dies erreichen wir durch die Integration von modernen Zwei-Strömennetzwerken 42 mit lernbarer spatio-temporaler Merkmalsaggregation 6. Die resultierende Architektur ist end-to-end trainierbar für die Klassifikation des gesamten Videos. Wir untersuchen verschiedene Strategien zum Pooling über Raum und Zeit und zur Kombination von Signalen aus den verschiedenen Strömen. Wir stellen fest, dass: (i) es wichtig ist, gemeinsam über Raum und Zeit zu poolen, aber (ii) Erscheinungs- und Bewegungsströme am besten in ihre eigenen separaten Repräsentationen aggregiert werden. Schließlich zeigen wir, dass unsere Repräsentation die Zwei-Ströme-Basisarchitektur mit einem großen Abstand übertrifft (13 % relativ) und auch andere Baselines mit vergleichbaren Basisarchitekturen bei den Video-Klassifikationsbenchmarks HMDB51, UCF101 und Charades übertrifft.
Girdhar et al. (Sat,) haben diese Frage untersucht.