A segmentação semântica precisa de imagens de sensoriamento remoto requer tanto modelagem de bordas finas quanto raciocínio contextual de longo alcance. Para abordar esse desafio, propomos o TransDeepUNet, uma rede hierárquica de fusão multimodal que integra imagens RGB e dados de elevação DSM. A estrutura emprega um codificador de dupla ramificação com compartilhamento de parâmetros para preservar representações específicas de modalidade. Um módulo de atenção cross-modal superficial melhora os detalhes estruturais, enquanto um Transformer cross-modal profundo modela dependências globais e alinhamento semântico. Um decodificador em cascata reconstrói progressivamente mapas de segmentação de alta resolução. Experimentos nos conjuntos de dados ISPRS Vaihingen e Potsdam e em um conjunto de dados suíço de alta resolução demonstram consistentemente melhorias de desempenho em relação a fortes bases de CNN e híbridas. No conjunto de dados Potsdam, o TransDeepUNet alcançou uma mIoU de 85,64% e uma mF1-score de 92,07%, superando modelos multimodais comparáveis enquanto mantém uma complexidade computacional competitiva. O código está disponível publicamente em: https://github.com/yingning01/TransDeepUNet.
Wang et al. (Sun,) estudaram essa questão.