Key points are not available for this paper at this time.
In diesem Papier führen wir eine neuartige Aufgabe ein, die als Schwach Überwachtes Spatio-Temporale Anomalieerkennung (WSSTAD) in Überwachungsvideos bezeichnet wird. Konkret zielt WSSTAD darauf ab, ein spatio-temporales Röhrenmodell (d.h. eine Sequenz von Begrenzungsrahmen zu aufeinanderfolgenden Zeiten) zu lokalisieren, das das abnormal Ereignis umschließt, wobei nur grobe Video-Ebenenannotations als Aufsicht während des Trainings verwendet werden. Um diese herausfordernde Aufgabe zu bewältigen, schlagen wir ein Dual-Branch-Netzwerk vor, das als Eingabe die Vorschläge mit Mehrgranularität in beiden spatio-temporalen Bereichen nutzt. Jede Branche verwendet ein Beziehungsmodul zur Auffassung der Korrelation zwischen Röhren/Videolets, die reichhaltige kontextuelle Informationen und komplexe Entitätsbeziehungen für das Konzeptlernen abnormaler Verhaltensweisen bieten kann. Ein wechselseitig geführter fortschreitender Verfeinerungsrahmen wird eingerichtet, um in wiederkehrender Weise eine gegenseitige Führung durch doppelte Pfade zu nutzen, die iterativ zusätzliche Aufsichtsinformationen über die Zweige hinweg teilt. Es zwingt die gelernten Konzepte jeder Branche dazu, als Leitfaden für ihre Pendant zu dienen, was die entsprechende Branche und den gesamten Rahmen schrittweise verfeinert. Darüber hinaus tragen wir zwei Datensätze bei, d.h. ST-UCF-Crime und STRA, die aus Videos mit spatio-temporalen abnormalen Annotierungen bestehen, um als Benchmarks für WSSTAD zu dienen. Wir führen umfassende qualitative und quantitative Bewertungen durch, um die Wirksamkeit des vorgeschlagenen Ansatzes zu demonstrieren und die Schlüsselfaktoren zu analysieren, die dazu beitragen, diese Aufgabe besser zu bewältigen.
Wu et al. (Sun,) untersuchten diese Frage.