May 18, 2021Open Access

Minería Semántica por Grupos para Segmentación Semántica Débilmente Supervisada

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Adquirir suficiente supervisión de verdad de terreno para entrenar modelos visuales profundos ha sido un cuello de botella a lo largo de los años debido a la naturaleza hambrienta de datos del aprendizaje profundo. Esto se exacerba en algunas tareas de predicción estructurada, como la segmentación semántica, que requiere anotaciones a nivel de píxel. Este trabajo aborda la segmentación semántica débilmente supervisada (WSSS), con el objetivo de cerrar la brecha entre las anotaciones a nivel de imagen y la segmentación a nivel de píxel. Formulamos WSSS como una novedosa tarea de aprendizaje por grupos que modela explícitamente las dependencias semánticas en un grupo de imágenes para estimar verdades de terreno pseudo más confiables, que pueden ser utilizadas para entrenar modelos de segmentación más precisos. En particular, ideamos una red neuronal gráfica (GNN) para la minería semántica por grupos, donde las imágenes de entrada se representan como nodos de un gráfico, y las relaciones subyacentes entre un par de imágenes se caracterizan mediante un mecanismo eficiente de co-atención. Además, para evitar que el modelo preste atención excesiva a las semánticas comunes únicamente, proponemos una capa de dropout gráfico, lo que anima al modelo a aprender respuestas de objeto más precisas y completas. Toda la red es entrenable de extremo a extremo mediante un paso iterativo de mensajes, que propaga pistas de interacción sobre las imágenes para mejorar progresivamente el rendimiento. Realizamos experimentos en los populares benchmarks de PASCAL VOC 2012 y COCO, y nuestro modelo ofrece un rendimiento de vanguardia. Nuestro código está disponible en: https://github.com/Lixy1997/Group-WSSS.

Me gusta

Guardar

Ver artículo completo