April 15, 2024Open Access

Nutzung zeitlicher Kontextualisierung für die Videoaktionskennung

Key Points

Die Genauigkeit der Aktionskennung verbessert sich erheblich durch das zeitlich kontextualisierte Framework, das Informationen effizient extrahiert.
Experimentelle Ergebnisse zeigen, dass TC-CLIP frühere Modelle in verschiedenen Einstellungen wie Zero-Shot und vollüberwachter Aktionskennung übertrifft.
Die Bewertung des Frameworks umfasst innovative Schichten zur Infusion zeitlicher Informationen und Strategien zur Verarbeitung von Videodaten in einer detaillierten Analyse über Aufgaben und Bedingungen. Aktualisierte Modelle könnten ein besseres Verständnis und eine bessere Vorhersage bei Videoanalyseaufgaben in der Zukunft ermöglichen.

Abstract

Vortrainierte Vision-Language-Modelle haben sich als effektiv in der Videoanalyse erwiesen. Jüngste Studien haben jedoch grundlegende zeitliche Informationen aus Videos nicht ausreichend genutzt, sondern lediglich bildweise Darstellungen im Durchschnitt genommen oder auf aufeinanderfolgende Frames verwiesen. Wir stellen Temporally Contextualized CLIP (TC-CLIP) vor, ein bahnbrechendes Framework für das Videoverständnis, das umfassende Videoinformationen effektiv und effizient nutzt. Wir schlagen die Temporale Kontextualisierung (TC) vor, einen neuartigen Mechanismus zur Schicht-für-Schicht-Infusion zeitlicher Informationen für Videos, der zentrale Informationen aus jedem Frame extrahiert, relevante Informationen über das Video hinweg miteinander verknüpft, um Kontext-Token zusammenzufassen, und letztendlich die Kontext-Token während des Merkmalskodierungsprozesses nutzt. Darüber hinaus erzeugt unser Video-conditional Prompting (VP) Modul Kontext-Token, um informative Aufforderungen in Textmodalität zu generieren. Wir führen umfassende Experimente in Zero-Shot-, Few-Shot-, Basis-zu-Neu- und vollüberwachter Aktionskennung durch, um die Überlegenheit unseres TC-CLIP zu validieren. Ablationsstudien für TC und VP garantieren unsere Designentscheidungen. Der Code ist unter https://github.com/naver-ai/tc-clip verfügbar.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper