Key points are not available for this paper at this time.
Die Integration einer zeitlichen Dimension in vortrainierte Bilddiffusionsmodelle zur Videogenerierung ist ein verbreiteter Ansatz. Allerdings ist diese Methode rechnerisch aufwändig und erfordert großangelegte Videodatensätze. Kritischer ist, dass die Heterogenität zwischen Bild- und Videodatensätzen oft zu katastrophalem Vergessen der Bildkompetenz führt. Jüngste Versuche, Videoclips direkt aus Bilddiffusionsmodellen zu extrahieren, haben diese Probleme teilweise gemildert. Dennoch können diese Methoden nur kurze Videoclips mit einfachen Bewegungen generieren und schaffen es nicht, fein abgestufte Bewegungen oder Nicht-Gitter-Deformationen einzufangen. In diesem Papier schlagen wir einen neuartigen Zero-Shot-Videoprobenalgorithmus vor, den wir als ZS² bezeichnen, der in der Lage ist, qualitativ hochwertige Videoclips direkt aus bestehenden Bildsynthesemethoden wie Stable Diffusion zu samplen, ohne Training oder Optimierung. Insbesondere nutzt ZS² das Abhängigkeitsrauschen-Modell und die temporale Momentum-Attention, um die Konsistenz des Inhalts und die Kohärenz der Animation sicherzustellen. Diese Fähigkeit ermöglicht es, in verwandten Aufgaben, wie z.B. der bedingten und kontext-spezialisierten Videogenerierung sowie der anleitungsbasierten Video-Bearbeitung, herausragende Leistungen zu erbringen. Experimentelle Ergebnisse zeigen, dass ZS² eine Spitzenleistung in der Zero-Shot-Videogenerierung erzielt und gelegentlich recent überwachte Methoden übertrifft. Homepage: https://densechen.github.io/zss/.
Chen et al. (Mi.,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: