Key points are not available for this paper at this time.
Ziel dieser Arbeit ist es, flexible Video-Sprachmodelle zu entwickeln, die auf verschiedene Video-zu-Text-Aufgaben aus wenigen Beispielen verallgemeinern können, wie z.B. domänenspezifische Untertitelung, Fragenbeantwortung und Vorhersage zukünftiger Ereignisse. Bestehende Few-Shot Video-Sprachlerner konzentrieren sich ausschließlich auf den Encoder, was zu einem Mangel an einem Video-zu-Text-Decoder führt, um generative Aufgaben zu bewältigen. Video-Subtitelungen wurden auf groß angelegten Video-Sprachdatensätzen vortrainiert, sind jedoch stark auf Feintuning angewiesen und haben nicht die Fähigkeit, Texte für ungesehene Aufgaben in einem Few-Shot-Umfeld zu generieren. Wir schlagen VidIL vor, einen Few-Shot Video-Sprachlerner über Bild- und Sprachmodelle, der eine starke Leistung bei Few-Shot Video-zu-Text-Aufgaben zeigt, ohne dass ein Vortraining oder Feintuning auf beliebigen Videodatensätzen erforderlich ist. Wir verwenden die Bild-Sprachmodelle, um den Videoinhalt in Bildunterschriften, Objekt-, Attribut- und Ereignisphrasen zu übersetzen und sie in eine temporale Strukturvorlage zu komponieren. Dann weisen wir einem Sprachmodell an, mit einem Prompt, der einige kontextuelle Beispiele enthält, eine Zielausgabe aus dem komponierten Inhalt zu generieren. Die Flexibilität der Aufforderung ermöglicht es dem Modell, jede Form von Texteingaben zu erfassen, wie z.B. Transkripte automatischer Spracherkennung (ASR). Unsere Experimente zeigen die Kraft der Sprachmodelle bei der Analyse von Videos in einer Vielzahl von Video-Sprach-Aufgaben, einschließlich Video-Untertitelung, Video-Fragenbeantwortung, Video-Untertitelabruf und Vorhersage zukünftiger Ereignisse in Videos. Besonders bei der Vorhersage zukünftiger Ereignisse in Videos übertrifft unser Few-Shot-Modell signifikant state-of-the-art überwachte Modelle, die auf groß angelegten Videodatensätzen trainiert wurden. Code und Ressourcen sind öffentlich für Forschungszwecke verfügbar unter https://github.com/MikeWangWZHL/VidIL.
Wang et al. (Sun,) untersuchten diese Frage.