Key points are not available for this paper at this time.
L'information contextuelle globale est essentielle pour la segmentation sémantique des images de télédétection (RS). Cependant, la plupart des méthodes existantes reposent sur un réseau de neurones convolutionnel (CNN), ce qui rend difficile l'obtention directe du contexte global en raison de la localité de l'opération de convolution. Inspirés par le Swin transformer avec de puissantes capacités de modélisation globale, nous proposons un nouveau cadre de segmentation sémantique pour les images RS appelé ST-U-shaped network (UNet), qui intègre le Swin transformer dans le UNet classique basé sur le CNN. ST-UNet constitue une nouvelle structure à double encodeur du Swin transformer et du CNN en parallèle. Tout d'abord, nous proposons un module d'interaction spatiale (SIM), qui encode l'information spatiale dans le bloc Swin transformer en établissant des corrélations au niveau des pixels pour renforcer la capacité de représentation des caractéristiques des objets occultés. Deuxièmement, nous construisons un module de compression de caractéristiques (FCM) pour réduire la perte d'informations détaillées et condenser davantage de caractéristiques à petite échelle lors du sous-échantillonnage des tokens de patch du Swin transformer, ce qui améliore la précision de segmentation des objets terrestres à petite échelle. Enfin, en tant que pont entre les double encodeurs, un module d'agrégation relationnelle (RAM) est conçu pour intégrer hiérarchiquement les dépendances globales du Swin transformer dans les caractéristiques du CNN. Notre ST-UNet apporte une amélioration significative sur les ensembles de données ISPRS-Vaihingen et Potsdam, respectivement. Le code sera disponible sur https://github.com/XinnHe/ST-UNet.
He et al. (Sat,) ont étudié cette question.