What question did this study set out to answer?

Die Forschung zielt darauf ab, das Video-Moment-Retrieval durch verbesserte Erfassung des langfristigen zeitlichen Kontexts zu optimieren.

April 5, 2026Open Access

Mamba-basierendes moduliertes Fusionsmodell für Video-Moment-Retrieval

Key Points

Die Forschung zielt darauf ab, das Video-Moment-Retrieval durch verbesserte Erfassung des langfristigen zeitlichen Kontexts zu optimieren.
Implementierung einer zweistufigen Fusionsarchitektur namens Hybrid Mamba Network (HM-Net)
Verwendung des Hybrid Modulated Bi-Mamba Blocks zur verbesserten zeitlichen Modellierung
Durchführung von Experimenten auf den TACoS- und QVHighlights-Benchmarks zur Leistungsbewertung
Erzielte eine Verbesserung von 3,84 % bei R1@0.5 auf dem TACoS-Benchmark
Erreichte eine Steigerung von 1,65 % im mAP auf QVHighlights
Demonstrierte eine verbesserte Lokalisierungsgenauigkeit bei Langformvideos

Abstract

Video Moment Retrieval (VMR) dient als grundlegende Aufgabe im Bereich des Videoverstehens und überbrückt dabei Vision und Sprache, indem es die relevantesten zeitlichen Segmente in ungeschnittenen Videos basierend auf einer textuellen Abfrage lokalisiert. Bestehende Ansätze zeichnen sich zwar durch eine feinkörnige Ausrichtung aus, versäumen es aber häufig, den globalen zeitlichen Kontext effektiv zu erfassen, insbesondere bei Langformvideos. Um dieses Problem zu lösen, schlagen wir das Hybrid Mamba Network (HM-Net) vor, eine zweistufige Fusionsarchitektur, die die Stärken von Attention- und Sequenzmodellierung vereint. Das Kernstück bildet dabei der Hybrid Modulated Bi-Mamba (HMB) Block, der die leistungsstarke zeitliche Modellierungsfähigkeit von Mamba in das VMR-Framework integriert, um ein effektives langfristiges zeitliches Schließen zu ermöglichen. Umfangreiche Experimente auf den anspruchsvollen TACoS- und QVHighlights-Benchmarks zeigen, dass HM-Net bestehende Ansätze konsequent übertrifft und eine Verbesserung von 3,84 % bei R1@0.5 (TACoS) sowie 1,65 % bei mAP (QVHighlights) erzielt, was insbesondere bei Langformvideos zu bemerkenswerten Genauigkeitssteigerungen in der Lokalisierung führt.

Bookmark

View Full Paper

Bookmark

View Full Paper

Mamba-basierendes moduliertes Fusionsmodell für Video-Moment-Retrieval

Key Points

Abstract

Cite This Study