Video-Inpainting-Aufgaben haben in den letzten Jahren bedeutende Verbesserungen mit dem Aufstieg tiefer neuronaler Netzwerke und insbesondere Vision-Transformern erfahren. Obwohl diese Modelle vielversprechende Rekonstruktionsqualität und zeitliche Konsistenz aufweisen, sind sie für Live-Videos, einen der letzten Schritte, um sie vollständig überzeugend und nutzbar zu machen, nach wie vor ungeeignet. Die Hauptbeschränkungen bestehen darin, dass diese hochentwickelten Modelle das Inpainting unter Verwendung des gesamten Videos (offline Verarbeitung) durchführen und eine unzureichende Bildrate aufweisen. In unserem Ansatz schlagen wir ein Framework vor, um bestehende Inpainting-Transformer an diese Einschränkungen anzupassen, indem wir redundante Berechnungen speichern und verfeinern und dabei eine angemessene Inpainting-Qualität aufrechterhalten. Mit diesem Framework zeigen wir in Kombination mit einigen der aktuellsten Inpainting-Modelle hervorragende Online-Ergebnisse mit einem konstanten Durchsatz von über 20 Bildern pro Sekunde. Der Code und die vortrainierten Modelle werden nach der Annahme zur Verfügung gestellt.
Thiry et al. (Sun,) haben diese Frage untersucht.