What question did this study set out to answer?

O objetivo é melhorar a precisão da segmentação semântica em imagens de sensoriamento remoto usando um modelo hierárquico de fusão multimodal.

April 30, 2026Open Access

Um modelo de segmentação semântica de fusão de características em múltiplos níveis para imagem de sensoriamento remoto

Key Points

O objetivo é melhorar a precisão da segmentação semântica em imagens de sensoriamento remoto usando um modelo hierárquico de fusão multimodal.
Desenvolveu o modelo TransDeepUNet combinando imagens RGB e dados de DSM.
Utilizou um codificador de dupla ramificação com compartilhamento de parâmetros e módulos de atenção cross-modal.
Avaliou o desempenho nos conjuntos de dados ISPRS Vaihingen, Potsdam e em um conjunto de dados suíço.
Conseguiu uma mIoU de 85,64% e uma mF1-score de 92,07% no conjunto de dados Potsdam.
Superou modelos existentes de CNN e híbridos em precisão de segmentação.
Manteve uma complexidade computacional competitiva junto a um desempenho forte.

Abstract

A segmentação semântica precisa de imagens de sensoriamento remoto requer tanto modelagem de bordas finas quanto raciocínio contextual de longo alcance. Para abordar esse desafio, propomos o TransDeepUNet, uma rede hierárquica de fusão multimodal que integra imagens RGB e dados de elevação DSM. A estrutura emprega um codificador de dupla ramificação com compartilhamento de parâmetros para preservar representações específicas de modalidade. Um módulo de atenção cross-modal superficial melhora os detalhes estruturais, enquanto um Transformer cross-modal profundo modela dependências globais e alinhamento semântico. Um decodificador em cascata reconstrói progressivamente mapas de segmentação de alta resolução. Experimentos nos conjuntos de dados ISPRS Vaihingen e Potsdam e em um conjunto de dados suíço de alta resolução demonstram consistentemente melhorias de desempenho em relação a fortes bases de CNN e híbridas. No conjunto de dados Potsdam, o TransDeepUNet alcançou uma mIoU de 85,64% e uma mF1-score de 92,07%, superando modelos multimodais comparáveis enquanto mantém uma complexidade computacional competitiva. O código está disponível publicamente em: https://github.com/yingning01/TransDeepUNet.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper