Key points are not available for this paper at this time.
Die natürliche Sprachvideo-Lokalisierung (NLVL) hat zum Ziel, einen Zielmoment aus einem ungeschnittenen Video zu lokalisieren, der semantisch einer Textanfrage entspricht. Bestehende Ansätze lösen das NLVL-Problem hauptsächlich aus der Perspektive der Computer Vision, indem sie es als Rangliste, Anker- oder Regressionsaufgaben formulieren. Diese Methoden leiden unter einer erheblichen Leistungsabnahme bei der Lokalisierung in langen Videos. In dieser Arbeit betrachten wir das NLVL aus einer neuen Perspektive, d.h. dem spannengestützten Fragen und Beantworten (QA), indem wir das Eingabevideo als Textpassage behandeln. Wir schlagen ein Video-Span-Lokalisierungsnetzwerk (VSLNet) vor, das auf dem standardmäßigen spannengestützten QA-Rahmen (genannt VSLBase) aufbaut, um das NLVL zu adressieren. VSLNet geht die Unterschiede zwischen NLVL und spannengestütztem QA durch eine einfache, aber effektive, an Abfragen orientierte Hervorhebung (QGH) an. QGH leitet VSLNet an, den passenden Video-Span innerhalb einer hervorgehobenen Region zu suchen. Um die Leistungsabnahme in langen Videos anzugehen, erweitern wir VSLNet weiter zu VSLNet-L, indem wir eine Multi-Scale Split-and-Concatenation-Strategie anwenden. VSLNet-L splittet zunächst das ungeschnittene Video in kurze Clip-Segmente; dann sagt es voraus, welches Clip-Segment den Zielmoment enthält und unterdrückt die Bedeutung anderer Segmente. Schließlich werden die Clip-Segmente mit unterschiedlichen Konfidenzen zusammengefügt, um den Zielmoment genau zu lokalisieren. Umfangreiche Experimente an drei Benchmark-Datensätzen zeigen, dass das vorgeschlagene VSLNet und VSLNet-L die state-of-the-art Methoden übertreffen; VSLNet-L geht das Problem der Leistungsabnahme in langen Videos an. Unsere Studie legt nahe, dass der spannengestützte QA-Rahmen eine effektive Strategie zur Lösung des NLVL-Problems darstellt.
Zhang et al. (Fri,) untersuchten diese Frage.