July 1, 2017

Aprendiendo Regularización Espacial con Supervisiones a Nivel de Imagen para Clasificación de Imágenes Multi-etiqueta

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

La clasificación de imágenes multi-etiqueta es una tarea fundamental pero desafiante en la visión por computadora. Se ha logrado un gran progreso al explotar las relaciones semánticas entre las etiquetas en los últimos años. Sin embargo, los enfoques convencionales no pueden modelar las relaciones espaciales subyacentes entre las etiquetas en imágenes multi-etiqueta, porque generalmente no se proporcionan anotaciones espaciales de las etiquetas. En este documento, proponemos una red neuronal profunda unificada que explota tanto las relaciones semánticas como las espaciales entre las etiquetas con solo supervisiones a nivel de imagen. Dada una imagen multi-etiqueta, nuestra Red de Regularización Espacial (SRN) genera mapas de atención para todas las etiquetas y captura las relaciones subyacentes entre ellas a través de convoluciones aprendibles. Al agregar los resultados de clasificación regularizados con los resultados originales mediante una red ResNet-101, el rendimiento de clasificación puede mejorarse de manera consistente. Toda la red neuronal profunda se entrena de extremo a extremo con solo anotaciones a nivel de imagen, por lo que no requiere esfuerzos adicionales en las anotaciones de imagen. Evaluaciones extensivas en 3 conjuntos de datos públicos con diferentes tipos de etiquetas muestran que nuestro enfoque supera significativamente a los mejores métodos actuales y tiene una fuerte capacidad de generalización. El análisis del modelo SRN aprendido demuestra que puede capturar efectivamente tanto las relaciones semánticas como las espaciales de las etiquetas para mejorar el rendimiento de clasificación.

Me gusta

Guardar