Key points are not available for this paper at this time.
Resumo—Neste artigo, abordamos o problema da recuperação de objetos com base em consultas em linguagem natural de vocabulário aberto: Dada uma frase descrevendo um objeto específico, por exemplo, “a caixa de flocos de milho”, a tarefa é encontrar a melhor correspondência em um conjunto de imagens contendo objetos candidatos. Ao nomear objetos, os humanos tendem a usar uma linguagem natural com semântica rica, incluindo categorias de nível básico, categorias detalhadas e conceitos de nível de instância, como nomes de marcas. As abordagens existentes para reconhecimento de objetos em larga escala falham nesse cenário, pois esperam consultas que mapeiem diretamente para um conjunto fixo de categorias visuais pré-treinadas, p. ex., etiquetas de synset do ImageNet. Abordamos essa limitação introduzindo um novo método de recuperação de objetos. Dada uma imagem de objeto candidato, primeiro mapeamos para um conjunto de palavras que provavelmente o descrevem, utilizando várias projeções aprendidas de imagem para texto. Também propomos um método para lidar com vocabulários abertos, ou seja, palavras que não estão contidas nos dados de treinamento. Em seguida, comparamos a consulta em linguagem natural aos conjuntos de palavras previstos para cada candidato e selecionamos a melhor correspondência. Nosso método pode combinar semânticas de nível de categoria e de nível de instância em uma representação comum. Apresentamos resultados experimentais extensivos em vários conjuntos de dados usando tanto correspondência de nível de instância quanto de nível de categoria e mostramos que nossa abordagem pode recuperar objetos com precisão com base em consultas de vocabulário aberto extremamente variadas. O código-fonte da nossa abordagem estará disponível publicamente junto com modelos pré-treinados em
Guadarrama et al. (Sat,) estudaram essa questão.