Key points are not available for this paper at this time.
Modelle, die auf tiefen Faltungsnetzwerken basieren, haben kürzlich die Bildinterpretationsaufgaben dominiert; wir untersuchen, ob Modelle, die ebenfalls rekurrent oder „zeitlich tief“ sind, für Aufgaben, die Sequenzen, visuelle und andere beinhalten, effektiv sind. Wir entwickeln eine neuartige rekurrente Faltungsarchitektur, die für das großangelegte visuelle Lernen geeignet ist, end-to-end trainierbar ist und demonstrieren den Wert dieser Modelle bei Benchmark-Videorekognitionsaufgaben, Bildbeschreibungs- und -abrufproblemen sowie Herausforderungen bei der Videoerzählung. Im Gegensatz zu aktuellen Modellen, die ein festes spatio-temporales rezeptives Feld oder einfache zeitliche Durchschnittsbildung für die sequenzielle Verarbeitung annehmen, sind rekurrente Faltungsmodelle „doppelt tief“, da sie in räumlichen und zeitlichen „Schichten“ kompositorisch sein können. Solche Modelle können Vorteile haben, wenn Zielkonzepte komplex und/oder Trainingsdaten begrenzt sind. Das Lernen langfristiger Abhängigkeiten ist möglich, wenn Nichtlinearitäten in die Netzwerkstatusaktualisierungen integriert werden. Langfristige RNN-Modelle sind attraktiv, da sie variabel lange Eingaben (z.B. Videoframes) direkt auf variabel lange Ausgaben (z.B. natürlichen Sprache-Text) abbilden können und komplexe zeitliche Dynamiken modellieren können; dennoch können sie mit Rückpropagation optimiert werden. Unsere rekurrenten Langzeitmodelle sind direkt mit modernen visuellen Convnet-Modellen verbunden und können gemeinsam trainiert werden, um gleichzeitig zeitliche Dynamiken und konvolutionale Wahrnehmungsrepräsentationen zu erlernen. Unsere Ergebnisse zeigen, dass solche Modelle deutliche Vorteile gegenüber modernen Modellen zur Erkennung oder Generierung haben, die separat definiert und/oder optimiert sind.
Donahue et al. (Mon,) untersuchten diese Frage.