Los puntos clave no están disponibles para este artículo en este momento.
Presentamos un modelo que genera descripciones en lenguaje natural de imágenes y sus regiones. Nuestro enfoque aprovecha conjuntos de datos de imágenes y sus descripciones en oraciones para aprender sobre las correspondencias intermodales entre el lenguaje y los datos visuales. Nuestro modelo de alineación se basa en una combinación novedosa de Redes Neuronales Convolucionales sobre regiones de la imagen, Redes Neuronales Recurrentes (RNN) bidireccionales sobre oraciones y un objetivo estructurado que alinea las dos modalidades a través de un embebido multimodal. Luego describimos una arquitectura de Red Neuronal Recurrente Multimodal que utiliza las alineaciones inferidas para aprender a generar descripciones novedosas de regiones de imágenes. Demostramos que nuestro modelo de alineación produce resultados de vanguardia en experimentos de recuperación sobre los conjuntos de datos Flickr8K, Flickr30K y MSCOCO. Luego mostramos que las descripciones generadas superan las líneas base de recuperación tanto en imágenes completas como en un nuevo conjunto de datos de anotaciones a nivel de región. Finalmente, llevamos a cabo un análisis a gran escala de nuestro modelo de lenguaje RNN sobre el conjunto de datos Visual Genome de 4.1 millones de subtítulos y destacamos las diferencias entre las estadísticas de subtítulos a nivel de imagen y de región.
Karpathy et al. (Fri,) estudiaron esta cuestión.