What question did this study set out to answer?

Développer une méthode pour améliorer les images à basse résolution en restaurant les détails manquants à l'aide de techniques d'appariement de caractéristiques.

October 10, 2022

Restauration de super-résolution en aveugle dans le monde réel via l'appariement des caractéristiques avec des priors implicites en haute résolution

Key Points

Développer une méthode pour améliorer les images à basse résolution en restaurant les détails manquants à l'aide de techniques d'appariement de caractéristiques.
Proposition du FeMaSR (Feature Matching SR) qui apparie les caractéristiques déformées à basse résolution aux homologues haute résolution.
Utilisation d'un codebook et d'un décodeur préentraînés d'un Réseau Adversarial Génératif Quantifié par Vecteur (VQGAN).
Mise en œuvre d'une régularisation sémantique et emploi d'une architecture Swin Transformer avec des connexions résiduelles.
Le FeMaSR produit des images haute résolution plus réalistes par rapport aux méthodes de super-résolution précédentes.
L'évaluation quantitative montre une amélioration significative dans la restauration des détails et la qualité des images.

Abstract

Un défi clé de la super-résolution d'images dans le monde réel est de récupérer les détails manquants dans des images à basse résolution (LR) avec des dégradations complexes inconnues (décimation, bruit et compression). La plupart des travaux précédents restaurent ces détails manquants dans l'espace image. Pour faire face à la grande diversité des images naturelles, ils s'appuient soit sur des GANs instables, difficiles à entraîner et sujets à des artefacts, soit sur des références explicites d'images haute résolution (HR) généralement indisponibles. Dans ce travail, nous proposons le FeMaSR (Feature Matching SR), qui restaure des images HR réalistes dans un espace de caractéristiques beaucoup plus compact. Contrairement aux méthodes dans l'espace image, notre FeMaSR restaure les images HR en appariant les caractéristiques déformées des images LR aux homologues HR sans déformation dans nos priors HR préentraînés, puis décode les caractéristiques appariées pour obtenir des images HR réalistes. Plus précisément, nos priors HR contiennent un codebook de caractéristiques discret et son décodeur associé, qui sont préentraînés sur des images HR avec un Réseau Adversarial Génératif Quantifié par Vecteur (VQGAN). Notamment, nous incorporons une nouvelle régularisation sémantique dans le VQGAN pour améliorer la qualité des images reconstruites. Pour l'appariement des caractéristiques, nous extrayons d'abord les caractéristiques LR avec un encodeur LR constitué de plusieurs blocs de Swin Transformer, puis suivons une stratégie simple de voisinage le plus proche pour les apparier avec le codebook préentraîné. En particulier, nous équipons l'encodeur LR de connexions de raccourci résiduelles vers le décodeur, ce qui est critique pour l'optimisation de la perte d'appariement de caractéristiques et aide également à compléter les erreurs possibles d'appariement de caractéristiques. Les résultats expérimentaux montrent que notre approche produit des images HR plus réalistes que les méthodes précédentes. Le code sera rendu disponible publiquement.

Bookmark

Restauration de super-résolution en aveugle dans le monde réel via l'appariement des caractéristiques avec des priors implicites en haute résolution

Key Points

Abstract

Cite This Study

Also Consider

Also Consider