Vortrainierte Vision-Language-Modelle haben sich als effektiv in der Videoanalyse erwiesen. Jüngste Studien haben jedoch grundlegende zeitliche Informationen aus Videos nicht ausreichend genutzt, sondern lediglich bildweise Darstellungen im Durchschnitt genommen oder auf aufeinanderfolgende Frames verwiesen. Wir stellen Temporally Contextualized CLIP (TC-CLIP) vor, ein bahnbrechendes Framework für das Videoverständnis, das umfassende Videoinformationen effektiv und effizient nutzt. Wir schlagen die Temporale Kontextualisierung (TC) vor, einen neuartigen Mechanismus zur Schicht-für-Schicht-Infusion zeitlicher Informationen für Videos, der zentrale Informationen aus jedem Frame extrahiert, relevante Informationen über das Video hinweg miteinander verknüpft, um Kontext-Token zusammenzufassen, und letztendlich die Kontext-Token während des Merkmalskodierungsprozesses nutzt. Darüber hinaus erzeugt unser Video-conditional Prompting (VP) Modul Kontext-Token, um informative Aufforderungen in Textmodalität zu generieren. Wir führen umfassende Experimente in Zero-Shot-, Few-Shot-, Basis-zu-Neu- und vollüberwachter Aktionskennung durch, um die Überlegenheit unseres TC-CLIP zu validieren. Ablationsstudien für TC und VP garantieren unsere Designentscheidungen. Der Code ist unter https://github.com/naver-ai/tc-clip verfügbar.
Kim et al. (Mon,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: