Key points are not available for this paper at this time.
Por enquanto, existem muitas estruturas inovadoras de detecção de objetos utilizadas em imagens de cenas naturais. Esses algoritmos apresentam boa performance de detecção nos conjuntos de dados de cenas naturais abertas. Entretanto, aplicar esses frameworks a imagens de sensoriamento remoto diretamente não é muito eficaz. Os algoritmos de detecção de objetos baseados em aprendizado profundo ainda enfrentam alguns desafios ao lidar com imagens de sensoriamento remoto, pois essas imagens geralmente contêm uma série de alvos com grandes variações nos tamanhos dos objetos, assim como similaridade entre classes. Com o objetivo de enfrentar os desafios da detecção de objetos em imagens de sensoriamento remoto óptico, propomos um framework de fusão de características em escalas cruzadas (CSFF), que pode melhorar efetivamente a precisão da detecção de objetos. Especificamente, primeiro usamos uma rede de pirâmide de características (FPN) para obter mapas de características em múltiplos níveis e, em seguida, inserimos um bloco de compressão e excitação (SE) na camada superior para modelar a relação entre diferentes canais de características. Em seguida, usamos o módulo CSFF para obter representações de características multilevel poderosas e discriminativas. Por fim, implementamos nosso trabalho no framework do CNN baseado em regiões mais rápido (R-CNN). No experimento, avaliamos nosso método em um conjunto de dados de grande escala disponível publicamente, chamado DIOR, e obtemos uma melhoria de 3,0% medida em termos de mAP em comparação com Faster R-CNN com FPN.
Cheng et al. (Qua,) estudaram esta questão.