Video Moment Retrieval (VMR) dient als grundlegende Aufgabe im Bereich des Videoverstehens und überbrückt dabei Vision und Sprache, indem es die relevantesten zeitlichen Segmente in ungeschnittenen Videos basierend auf einer textuellen Abfrage lokalisiert. Bestehende Ansätze zeichnen sich zwar durch eine feinkörnige Ausrichtung aus, versäumen es aber häufig, den globalen zeitlichen Kontext effektiv zu erfassen, insbesondere bei Langformvideos. Um dieses Problem zu lösen, schlagen wir das Hybrid Mamba Network (HM-Net) vor, eine zweistufige Fusionsarchitektur, die die Stärken von Attention- und Sequenzmodellierung vereint. Das Kernstück bildet dabei der Hybrid Modulated Bi-Mamba (HMB) Block, der die leistungsstarke zeitliche Modellierungsfähigkeit von Mamba in das VMR-Framework integriert, um ein effektives langfristiges zeitliches Schließen zu ermöglichen. Umfangreiche Experimente auf den anspruchsvollen TACoS- und QVHighlights-Benchmarks zeigen, dass HM-Net bestehende Ansätze konsequent übertrifft und eine Verbesserung von 3,84 % bei R1@0.5 (TACoS) sowie 1,65 % bei mAP (QVHighlights) erzielt, was insbesondere bei Langformvideos zu bemerkenswerten Genauigkeitssteigerungen in der Lokalisierung führt.
Yu et al. (Fri,) untersuchten diese Fragestellung.