August 5, 2016

Alineaciones Visual-Semánticas Profundas para Generar Descripciones de Imágenes

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Presentamos un modelo que genera descripciones en lenguaje natural de imágenes y sus regiones. Nuestro enfoque aprovecha conjuntos de datos de imágenes y sus descripciones en oraciones para aprender sobre las correspondencias intermodales entre el lenguaje y los datos visuales. Nuestro modelo de alineación se basa en una combinación novedosa de Redes Neuronales Convolucionales sobre regiones de la imagen, Redes Neuronales Recurrentes (RNN) bidireccionales sobre oraciones y un objetivo estructurado que alinea las dos modalidades a través de un embebido multimodal. Luego describimos una arquitectura de Red Neuronal Recurrente Multimodal que utiliza las alineaciones inferidas para aprender a generar descripciones novedosas de regiones de imágenes. Demostramos que nuestro modelo de alineación produce resultados de vanguardia en experimentos de recuperación sobre los conjuntos de datos Flickr8K, Flickr30K y MSCOCO. Luego mostramos que las descripciones generadas superan las líneas base de recuperación tanto en imágenes completas como en un nuevo conjunto de datos de anotaciones a nivel de región. Finalmente, llevamos a cabo un análisis a gran escala de nuestro modelo de lenguaje RNN sobre el conjunto de datos Visual Genome de 4.1 millones de subtítulos y destacamos las diferencias entre las estadísticas de subtítulos a nivel de imagen y de región.

Me gusta

Guardar

Me gusta

Guardar

Alineaciones Visual-Semánticas Profundas para Generar Descripciones de Imágenes

Puntos clave

Resumen

Cite This Study