Key points are not available for this paper at this time.
Aktuelle Methoden zur Video-Moment-Wiederholung (VMR) haben Schwierigkeiten, komplexe Situationen mit spezifischen Umgebungsdetails, Charakterbeschreibungen und Handlungserzählungen in Einklang zu bringen. Um dieses Problem zu lösen, schlagen wir einen Moment-Wiederholungsansatz (LMR) vor, der von einem großen Sprachmodell geleitet wird und das umfangreiche Wissen von großen Sprachmodellen (LLMs) nutzt, um die Kontextdarstellung von Videos sowie die cross-modale Ausrichtung zu verbessern, was die präzise Lokalisierung von Zielmomenten erleichtert. Insbesondere führt LMR eine Kontextverbesserungstechnik mit LLMs ein, um entscheidende kontextbezogene Semantiken zu erzeugen. Diese Semantiken werden mit visuellen Merkmalen integriert, um diskriminierende Video-Darstellungen zu erstellen. Schließlich wird ein sprachlich bedingter Transformer entworfen, um freie Sprachabfragen in Echtzeit zu dekodieren, wobei ausgerichtete Video-Darstellungen für die Moment-Wiederholung verwendet werden. Umfangreiche Experimente zeigen, dass LMR erstklassige Ergebnisse erzielt und den nächstgelegenen Mitbewerber um bis zu 3,28\% und 4,06\% in den anspruchsvollen QVHighlights- und Charades-STA-Benchmarks übertrifft. Noch wichtiger ist, dass die Leistungssteigerungen bei der Lokalisierung komplexer Abfragen erheblich höher sind.
Liu et al. (Tue,) haben diese Frage untersucht.