Key points are not available for this paper at this time.
Textgesteuerte Video-Vorhersage (TVP) beinhaltet die Vorhersage der Bewegung zukünftiger Frames aus dem Anfangsframe gemäß einer Anweisung, was breite Anwendungen in der virtuellen Realität, Robotik und Content-Erstellung hat. Frühere TVP-Methoden erzielten bedeutende Fortschritte, indem sie Stable Diffusion für diese Aufgabe anpassten. Dennoch kämpfen sie mit der Frame-Konsistenz und der zeitlichen Stabilität, hauptsächlich aufgrund des begrenzten Maßstabs von Video-Datensätzen. Wir beobachten, dass vortrainierte Bild-zu-Video-Diffusionsmodelle gute Prämissen für die Video-Dynamik besitzen, jedoch fehlt es ihnen an textueller Kontrolle. Daher ist es sowohl eine sinnvolle als auch herausfordernde Aufgabe, Bild-zu-Video-Modelle zu übertragen, um deren Video-Dynamik-Prämissen zu nutzen und gleichzeitig die Steuerung durch Anweisungen einzufügen, um kontrollierbare Videos zu generieren. Um dies zu erreichen, führen wir das Multi-Modal Large Language Model (MLLM) ein, das zukünftige Videozustände basierend auf Anfangsframes und Textanweisungen vorhersagt. Genauer gesagt, entwerfen wir eine duale Abfrage-Transformer-Architektur (DQFormer), die die Anweisungen und Frames in die bedingten Einbettungen für die Vorhersage zukünftiger Frames integriert. Darüber hinaus entwickeln wir Long-Short Term Temporal Adapters und Spatial Adapters, die allgemeine Video-Diffusionsmodelle schnell auf spezifische Szenarien mit minimalen Schulungskosten übertragen können. Experimentelle Ergebnisse zeigen, dass unsere Methode die neuesten Techniken auf vier Datensätzen erheblich übertrifft: Something Something V2, Epic Kitchen-100, Bridge Data und UCF-101. Besonders hervorzuheben ist, dass AID auf Bridge und SSv2 Verbesserungen von 91,2% und 55,5% FVD erzielt, was ihre Effektivität in verschiedenen Bereichen demonstriert. Weitere Beispiele finden Sie auf unserer Website https://chenhsing.github.io/AID.
Xing et al. (Mon.) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: