March 24, 2024Open Access

Hin zu Online-Echtzeit-Speicherbasierten Video-Inpainting-Transformern

Key Points

Die Ergebnisse zeigen konstant über 20 Bilder pro Sekunde für Video-Inpainting-Aufgaben und verbessern die Benutzerfreundlichkeit.
Metrik: Video-Inpainting mit Echtzeit-Anpassung bestehender tiefen neuronaler Netzwerke erreichte eine Bildrate von über 20 fps.
Die Bewertung unter Verwendung eines speicherbasierten Frameworks zur Verbesserung bestehender Vision-Transformatoren für Online-Video-Inpainting-Aufgaben führte zu signifikanten Verbesserungen in Leistung und Effizienz in Echtzeiteinstellungen innerhalb von Videos mit dynamischen Inhalten, die schnelle Anpassungen und Verfeinerungen erforderten, um grundlegende Ansätze für verschiedene Videoszenarien anzupassen.

Abstract

Video-Inpainting-Aufgaben haben in den letzten Jahren bedeutende Verbesserungen mit dem Aufstieg tiefer neuronaler Netzwerke und insbesondere Vision-Transformern erfahren. Obwohl diese Modelle vielversprechende Rekonstruktionsqualität und zeitliche Konsistenz aufweisen, sind sie für Live-Videos, einen der letzten Schritte, um sie vollständig überzeugend und nutzbar zu machen, nach wie vor ungeeignet. Die Hauptbeschränkungen bestehen darin, dass diese hochentwickelten Modelle das Inpainting unter Verwendung des gesamten Videos (offline Verarbeitung) durchführen und eine unzureichende Bildrate aufweisen. In unserem Ansatz schlagen wir ein Framework vor, um bestehende Inpainting-Transformer an diese Einschränkungen anzupassen, indem wir redundante Berechnungen speichern und verfeinern und dabei eine angemessene Inpainting-Qualität aufrechterhalten. Mit diesem Framework zeigen wir in Kombination mit einigen der aktuellsten Inpainting-Modelle hervorragende Online-Ergebnisse mit einem konstanten Durchsatz von über 20 Bildern pro Sekunde. Der Code und die vortrainierten Modelle werden nach der Annahme zur Verfügung gestellt.

Hin zu Online-Echtzeit-Speicherbasierten Video-Inpainting-Transformern

Key Points

Abstract

Cite This Study