Key points are not available for this paper at this time.
Die Video-Frame-Interpolation (VFI), die darauf abzielt, Zwischenrahmen eines Videos zu synthetisieren, hat in den letzten Jahren mit der Entwicklung von tiefen Faltungsnetzwerken bemerkenswerte Fortschritte gemacht. Bestehende Methoden, die auf Faltungsnetzwerken basieren, stehen im Allgemeinen vor Herausforderungen bei der Handhabung großer Bewegungen aufgrund der Lokalität der Faltungsoperationen. Um diese Einschränkung zu überwinden, introduzieren wir ein neuartiges Framework, das die Vorteile von Transformer nutzt, um die langfristige Pixelkorrelation zwischen Videorahmen zu modellieren. Darüber hinaus ist unser Netzwerk mit einem neuartigen, fensterbasierten Aufmerksamkeitsmechanismus für verschiedene Skalen ausgestattet, bei dem Fenster über verschiedene Skalen miteinander interagieren. Dieses Design vergrößert effektiv das rezeptive Feld und aggregiert Informationen auf mehreren Skalen. Umfangreiche quantitative und qualitative Experimente zeigen, dass unsere Methode neue Spitzenwerte bei verschiedenen Benchmarks erzielt.
Lu et al. (Mittwoch) haben diese Frage untersucht.