Los puntos clave no están disponibles para este artículo en este momento.
Consideramos la tarea de aprender un clasificador para la segmentación semántica utilizando supervisión débil en forma de etiquetas de imagen que especifican las clases de objetos presentes en la imagen. Nuestro método utiliza redes neuronales profundas convolucionales (CNNs) y adopta un enfoque basado en Expectación-Maximización (EM). Nos enfocamos en los siguientes tres aspectos de EM: (i) inicialización; (ii) estimación posterior latente (paso E) y (iii) la actualización de parámetros (paso M). Mostramos que los mapas de saliencia y atención, nuestras señales de abajo hacia arriba y de arriba hacia abajo respectivamente, de imágenes simples proporcionan señales muy buenas para aprender una inicialización para el algoritmo basado en EM. Intuitivamente, mostramos que antes de intentar aprender a segmentar imágenes complejas, es mucho más fácil y altamente efectivo primero aprender a segmentar un conjunto de imágenes simples y luego avanzar hacia las complejas. A continuación, para actualizar los parámetros, proponemos minimizar la combinación de la pérdida softmax estándar y la divergencia KL entre la verdadera posterior latente y la verosimilitud dada por la CNN. Argumentamos que esta combinación es más robusta a predicciones incorrectas realizadas por el paso de expectativa del método EM. Apoyamos este argumento con resultados empíricos y visuales. Experimentaciones y discusiones extensas muestran que: (i) nuestro método es muy simple e intuitivo; (ii) requiere solo etiquetas a nivel de imagen; y (iii) supera consistentemente a otros métodos estado del arte débilmente supervisados con un margen muy alto en el conjunto de datos PASCAL VOC 2012.
Hou et al. (Wed,) estudiaron esta cuestión.