Los puntos clave no están disponibles para este artículo en este momento.
Este artículo aborda el problema de segmentación y clasificación de imágenes de escena a nivel de píxel con un enfoque completamente basado en el aprendizaje utilizando redes neuronales recurrentes de Long Short Term Memory (LSTM), que se utilizan comúnmente para la clasificación de secuencias. Investigamos redes LSTM bidimensionales (2D) para imágenes de escenas naturales teniendo en cuenta las complejas dependencias espaciales de las etiquetas. Los métodos anteriores generalmente han requerido etapas de clasificación y segmentación de imágenes separadas y/o pre- y post-procesamiento. En nuestro enfoque, la clasificación, la segmentación y la integración de contexto se llevan a cabo mediante redes LSTM 2D, permitiendo que los parámetros de textura y modelo espacial se aprendan dentro de un único modelo. Las redes capturan de manera eficiente la información contextual local y global sobre valores RGB en bruto y se adaptan bien a imágenes de escenas complejas. Nuestro enfoque, que tiene una complejidad computacional mucho más baja que los métodos anteriores, alcanzó un rendimiento de última generación en los conjuntos de datos Stanford Background y SIFT Flow. De hecho, si no se aplica ningún pre- o post-procesamiento, las redes LSTM superan a otros enfoques de última generación. Por lo tanto, solo con una Unidad Central de Procesamiento (CPU) de un solo núcleo, el tiempo de ejecución de nuestro enfoque es equivalente o mejor que los enfoques de última generación comparados que utilizan una Unidad de Procesamiento Gráfico (GPU). Finalmente, la capacidad de nuestras redes para visualizar mapas de características de cada capa apoya la hipótesis de que las redes LSTM son en general adecuadas para tareas de procesamiento de imágenes.
Byeon et al. (Mon,) estudiaron esta cuestión.