July 26, 2018Open Access

Clasificación de escenas basada en redes neuronales convolucionales multiescala

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Con la gran cantidad de imágenes de alta resolución espacial ahora disponibles, la clasificación de escenas destinada a obtener conceptos semánticos de alto nivel ha atraído gran atención. Las redes neuronales convolucionales (CNN), que son métodos típicos de aprendizaje profundo, han sido estudiadas ampliamente para aprender automáticamente características de las imágenes para la clasificación de escenas. Sin embargo, la clasificación de escenas basada en CNN todavía es difícil debido a la variación de escala de los objetos en las imágenes de teledetección. En este documento, se propone un marco de CNN multiescala (MCNN) para resolver el problema. En MCNN, se construye una estructura de red que contiene ramas duales de una red de escala fija (F-net) y una red de escala variable (V-net), y los parámetros son compartidos por F-net y V-net. Las imágenes y sus imágenes reescaladas se alimentan a F-net y V-net, respectivamente, lo que nos permite entrenar simultáneamente los pesos de la red compartida en imágenes multiescala. Además, para asegurar que las características extraídas de MCNN sean invariantes a la escala, se agrega una capa de medida de similitud a MCNN, que obliga a los dos vectores de características extraídos de la imagen y su imagen reescalada correspondiente a estar lo más cerca posible en la fase de entrenamiento. Para demostrar la efectividad del método propuesto, comparamos los resultados obtenidos utilizando tres conjuntos de datos de teledetección ampliamente utilizados: el conjunto de datos de UC Merced, el conjunto de datos de imágenes aéreas y el conjunto de datos de Google de SIRI-WHU. Los resultados confirman que el método propuesto tiene un rendimiento significativamente mejor que otros métodos de clasificación de escenas de última generación.

Me gusta

Guardar

Ver artículo completo