Key points are not available for this paper at this time.
Transformer, als starke und flexible Architektur zur Modellierung von Langstreckenbeziehungen, wurde in Vision-Aufgaben umfassend untersucht. Allerdings leidet die verwendete Methode beim Video-Inpainting, das eine feingranulare Darstellung erfordert, immer noch unter verschwommenen Kanten in Details aufgrund der harten Patch-Aufteilung. Hier zielen wir darauf ab, dieses Problem zu lösen, indem wir FuseFormer vorschlagen, ein Transformer-Modell, das für Video-Inpainting über feingranulare Merkmale-Fusion auf der Grundlage neuartiger Soft Split- und Soft Composition-Operationen konzipiert ist. Der Soft Split teilt die Merkmalskarte in viele Patches mit gegebenem Überlappungsintervall. Im Gegensatz dazu funktioniert die Soft Composition, indem verschiedene Patches zu einer ganzen Merkmalskarte zusammengenäht werden, wobei die Pixel in den überlappenden Bereichen summiert werden. Diese beiden Module werden zuerst in der Tokenisierung vor den Transformer-Schichten und in der De-Tokenisierung nach den Transformer-Schichten verwendet, um eine effektive Zuordnung zwischen Tokens und Merkmalen zu ermöglichen. Daher wird die Interaktion von Informationen auf Sub-Patch-Ebene für eine effektivere Merkmalsausbreitung zwischen benachbarten Patches ermöglicht, was zu der Synthese lebendiger Inhalte für Löcher in Videos führt. Darüber hinaus fügen wir in FuseFormer die Soft Composition und den Soft Split sorgfältig in das Feed-Forward-Netzwerk ein, wodurch die 1D-linearen Schichten die Fähigkeit erhalten, 2D-Strukturen zu modellieren. Und die Fähigkeit zur Sub-Patch-Level-Merkmalsfusion wird weiter verbessert. In sowohl quantitativen als auch qualitativen Bewertungen übertrifft unser vorgeschlagener FuseFormer die modernsten Methoden. Wir führen auch eine detaillierte Analyse durch, um seine Überlegenheit zu prüfen. Code und vortrainierte Modelle sind verfügbar unter https://github.com/ruiliu-ai/FuseFormer.
Liu et al. (Fr,) haben diese Frage untersucht.
Synapse has enriched 2 closely related papers on similar clinical questions. Consider them for comparative context: