Key points are not available for this paper at this time.
Tiefe konvolutionale neuronale Netzwerke haben großen Erfolg bei bildbasierten Erkennungsaufgaben gehabt. Es ist jedoch weiterhin unklar, wie die temporale Entwicklung von Videos effektiv durch tiefe Netzwerke modelliert werden kann. Während neuere tiefe Modelle für Videos durch die Einbeziehung von optischem Fluss oder durch die Aggregation hochrangiger Erscheinungen über Frames Verbesserungen zeigen, konzentrieren sie sich darauf, entweder die langfristigen temporalen Beziehungen oder die kurzfristige Bewegung zu modellieren. Wir schlagen Temporale Differenznetzwerke (TDN) vor, die sowohl langfristige Beziehungen als auch kurzfristige Bewegung aus Videos modellieren. Wir nutzen eine einfache, aber effektive Bewegungsrepräsentation: den Unterschied der CNN-Merkmale in unserem Netzwerk und modellieren die Bewegung gleichzeitig auf mehreren Skalen in einem einzigen CNN. Es erreicht eine Spitzenleistung auf drei verschiedenen Video-Klassifikationsbenchmarks und zeigt die Wirksamkeit unseres Ansatzes, temporale Beziehungen in Videos zu lernen.
Ng et al. (Do,) haben diese Fragestellung untersucht.