Key points are not available for this paper at this time.
Apresentamos um modelo que gera descrições em linguagem natural de imagens e suas regiões. Nossa abordagem utiliza conjuntos de dados de imagens e suas descrições em frases para aprender sobre as correspondências intermodais entre linguagem e dados visuais. Nosso modelo de alinhamento é baseado em uma nova combinação de Redes Neurais Convolucionais sobre regiões de imagem, Redes Neurais Recursivas Bidirecionais (RNN) sobre frases, e um objetivo estruturado que alinha as duas modalidades através de um embedding multimodal. Descrevemos uma arquitetura de Rede Neural Recursiva Multimodal que utiliza os alinhamentos inferidos para aprender a gerar novas descrições de regiões de imagem. Demonstramos que nosso modelo de alinhamento produz resultados de ponta em experimentos de recuperação nos conjuntos de dados Flickr8K, Flickr30K e MSCOCO. Em seguida, mostramos que as descrições geradas superam as linhas de base de recuperação tanto em imagens completas quanto em um novo conjunto de dados de anotações de nível de região. Finalmente, conduzir uma análise em grande escala de nosso modelo de linguagem RNN no conjunto de dados Visual Genome de 4,1 milhões de legendas e destacamos as diferenças entre as estatísticas de legendas de nível de imagem e de nível de região.
Karpathy et al. (sex,) estudaram esta questão.