July 1, 2017

ViP-CNN: Red Neuronal Convolucional Guiada por Frases Visuales

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Como la tarea de nivel intermedio que conecta la generación de subtítulos de imágenes y la detección de objetos, la detección de relaciones visuales comenzó a captar la atención de los investigadores debido a su poder descriptivo y estructura clara. Detecta los objetos y captura sus interacciones por pares con un triplete sujeto-predicado-objeto, p. ej. persona-montar-caballo. En este documento, cada relación visual se considera como una frase con tres componentes. Formulamos la detección de relaciones visuales como tres problemas de reconocimiento interconectados y proponemos una Red Neuronal Convolucional Guiada por Frases Visuales (ViP-CNN) para abordarlos simultáneamente. En ViP-CNN, presentamos una Estructura de Pasaje de Mensajes Guiada por Frases (PMPS) para establecer la conexión entre los componentes de la relación y ayudar al modelo a considerar los tres problemas de manera conjunta. También se proponen un método de supresión de no-máximos correspondiente y una estrategia de entrenamiento del modelo. Los resultados experimentales muestran que nuestra ViP-CNN supera al método de vanguardia tanto en velocidad como en precisión. Además, preentrenamos ViP-CNN en nuestro conjunto de datos de Relaciones del Genoma Visual depurado, que se ha encontrado que rinde mejor que el preentrenamiento en ImageNet para esta tarea.

Preguntar a la IA

Me gusta

Guardar