Los puntos clave no están disponibles para este artículo en este momento.
Dado que las redes neuronales convolucionales (CNN) tienen un buen desempeño en el aprendizaje de priors generales de imagen a partir de datos a gran escala, estos modelos se han aplicado extensamente a la restauración de imágenes y tareas relacionadas. Recientemente, otra clase de arquitecturas neuronales, los Transformers, han mostrado ganancias significativas en el rendimiento en tareas de lenguaje natural y visión de alto nivel. Mientras que el modelo Transformer mitiga las limitaciones de las CNN (es decir, campo receptivo limitado e inadaptabilidad al contenido de entrada), su complejidad computacional crece cuadráticamente con la resolución espacial, lo que lo hace inviable para la mayoría de las tareas de restauración de imágenes que involucran imágenes de alta resolución. En este trabajo, proponemos un modelo Transformer eficiente al realizar varios diseños clave en los bloques de construcción (atención multi-cabeza y red de avance) de manera que pueda capturar interacciones de píxeles a largo alcance, manteniendo su aplicabilidad a imágenes grandes. Nuestro modelo, denominado Transformer de Restauración (Restormer), logra resultados de vanguardia en varias tareas de restauración de imágenes, incluyendo la eliminación de lluvia de imágenes, la eliminación de desenfoque de movimiento de imagen única, la eliminación de desenfoque por falta de enfoque (datos de imagen única y de píxel dual), y la eliminación de ruido de imagen (eliminación de ruido en escala de grises/color gaussiano, y eliminación de ruido de imagen real). El código fuente y los modelos preentrenados están disponibles en https://github.com/swz30/Restormer.
Zamir et al. (Wed,) estudiaron esta cuestión.