Key points are not available for this paper at this time.
Le déflouissement vidéo est toujours un problème non résolu en raison du processus de modélisation spatio-temporelle complexe. Bien que les méthodes existantes basées sur des réseaux de neurones convolutifs (CNN) montrent une capacité limitée de modélisation spatiale et temporelle efficace pour le déflouissement vidéo. Cet article présente VDTR, un modèle basé sur Transformer efficace qui fait la première tentative d'adapter un Transformer pur pour le déflouissement vidéo. VDTR exploite les capacités supérieures de modélisation des relations et à long terme du Transformer pour la modélisation spatiale et temporelle. Cependant, il est difficile de concevoir un modèle basé sur Transformer approprié pour le déflouissement vidéo en raison des flous non uniformes compliqués, des désalignements à travers plusieurs images et des coûts computationnels élevés pour la modélisation spatiale à haute résolution. Pour résoudre ces problèmes, VDTR préconise de réaliser de l'attention au sein de fenêtres non chevauchantes et d'exploiter la structure hiérarchique pour la modélisation des dépendances à long terme. Pour la modélisation spatiale au niveau des images, nous proposons un Transformer encodeur-décoder qui utilise des caractéristiques multi-échelles pour le déflouissement. Pour la modélisation temporelle multi-images, nous adaptons le Transformer pour fusionner efficacement plusieurs caractéristiques spatiales. Comparé aux méthodes basées sur CNN, la méthode proposée atteint des résultats hautement compétitifs sur des benchmarks de déflouissement vidéo synthétiques et réels, y compris DVD, GOPRO, REDS et BSD. Nous espérons qu'une telle architecture basée sur Transformer pourra servir de base alternative puissante pour le déflouissement vidéo et d'autres tâches de restauration vidéo. Le code source sera disponible sur https://github.com/ljzycmd/VDTR.
Cao et al. (Mar,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: