Key points are not available for this paper at this time.
Videosequenzen bieten wertvolle zeitliche Informationen, doch bestehende große multimodale Modelle (LMMs) sind bei der Verarbeitung extrem langer Videos eingeschränkt. Viele Arbeiten adressieren dieses Problem durch die Verringerung der Anzahl visueller Token mithilfe visueller Resampler. Alternativ betrachten wir in diesem Artikel das Problem aus der Perspektive des Sprachmodells. Indem wir einfach die Kontextlänge des sprachlichen Backbones extrapolieren, ermöglichen wir LMMs, um Größenordnungen mehr visuelle Token ohne spezifisches Videotraining zu verstehen. Wir nennen dieses Phänomen Langzeit-Kontextübertragung und untersuchen sorgfältig dessen Eigenschaften. Um die Fähigkeit von LMMs zu messen, auf lange Kontexte in der visuellen Modalität zu generalisieren, entwickeln wir V-NIAH (Visual Needle-In-A-Haystack), ein rein synthetisches Langzeit-Visions-Benchmark, inspiriert vom NIAH-Test für Sprachmodelle. Unser vorgeschlagener Long Video Assistant (LongVA) kann 2000 Frames oder über 200.000 visuelle Token ohne zusätzliche Komplexität verarbeiten. Mit seiner erweiterten Kontextlänge erzielt LongVA den Stand-der-Technik bei Video-MME unter 7B-Modellen durch dichtere Abtastung mehrerer Eingabeframes. Unsere Arbeit ist unter https://github.com/EvolvingLMMs-Lab/LongVA Open Source verfügbar.
Building similarity graph...
Analyzing shared references across papers
Loading...
Peiyuan Zhang
Kaichen Zhang
Bo Li
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (Mon,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e63901b6db6435875ca75a — DOI: https://doi.org/10.48550/arxiv.2406.16852