August 27, 2024

Fast-Vid2Vid++: räumliche-temporale Destillation für die Echtzeit-Video-zu-Video-Synthese

Key Points

Key points are not available for this paper at this time.

Abstract

Die Video-zu-Video-Synthese (Vid2Vid) erzielt bemerkenswerte Leistungen bei der Generierung eines fotorealistischen Videos aus einer Sequenz semantischer Karten, wie z.B. Segmentierung, Skizze und Pose. Diese Pipeline ist jedoch stark durch hohe Rechenkosten und lange Inferenzlatenzen eingeschränkt, die hauptsächlich auf zwei wesentliche Faktoren zurückzuführen sind: 1) Parameter der Netzwerkarchitektur, 2) sequenzieller Datenstrom. Kürzlich wurden die Parameter bildbasierter generativer Modelle durch effizientere Netzwerkarchitekturen erheblich reduziert. Bestehende Methoden konzentrieren sich hauptsächlich auf die Verkleinerung von Netzwerkarchitekturen, ignorieren jedoch die Größe des sequenziellen Datenstroms. Darüber hinaus ist bildbasierte Kompression aufgrund des Mangels an zeitlicher Kohärenz für die Kompression der Videoaufgabe nicht ausreichend. In diesem Papier präsentieren wir ein räumlich-temporales hybrides Destillationskompressionsframework, Fast-Vid2Vid++, das sich auf die Wissensdestillation des Lehrer-Netzwerks und des Datenstroms generativer Modelle sowohl im Raum als auch in der Zeit konzentriert. Fast-Vid2Vid++ unternimmt den ersten Versuch in der Zeitdimension, hierarchische Merkmale und zeitliche Kohärenzwissen zu übertragen, um die Rechenressourcen zu reduzieren und die Inferenz zu beschleunigen. Konkret komprimieren wir den Datenstrom räumlich und reduzieren die zeitliche Redundanz. Wir destillieren das Wissen der hierarchischen Merkmale und die endgültige Antwort vom Lehrer-Netzwerk zum Schüler-Netzwerk in hochauflösenden und vollzeitlichen Domänen. Wir übertragen die langfristigen Abhängigkeiten der Merkmale und Video-Frames auf das Schüler-Modell. Nach der vorgeschlagenen räumlich-temporalen hybriden Wissensdestillation (Spatial-Temporal-HKD) kann unser Modell hochauflösende Schlüsselframes mithilfe des niedrigauflösenden Datenstroms synthetisieren. Schließlich interpoliert Fast-Vid2Vid++ Zwischenframes durch Bewegungscompensation mit geringer Latenz und generiert vollständige Sequenzen mit bewegungsbewusster Inferenz (MAI). Bei Standardbenchmarks erreicht Fast-Vid2Vid++ eine Echtzeit-Leistung von 30-59 FPS und spart 28-35× Rechenkosten auf einer einzelnen V100 GPU.

Bookmark

Fast-Vid2Vid++: räumliche-temporale Destillation für die Echtzeit-Video-zu-Video-Synthese

Key Points

Abstract

Cite This Study

Also Consider

Also Consider