Key points are not available for this paper at this time.
O estado da arte na recuperação visual de objetos a partir de grandes bancos de dados é alcançado por sistemas que se inspiram na recuperação de texto. Um componente chave dessas abordagens é que regiões locais das imagens são caracterizadas usando descritores de alta dimensão, que são então mapeados para 'palavras visuais' selecionadas a partir de um vocabulário discreto. Este artigo explora técnicas para mapear cada região visual para um conjunto ponderado de palavras, permitindo a inclusão de características que foram perdidas na etapa de quantização de sistemas anteriores. O conjunto de palavras visuais é obtido pela seleção de palavras com base na proximidade no espaço dos descritores. Descrevemos como esta representação pode ser incorporada em uma arquitetura tf-idf padrão e como a verificação espacial é modificada no caso desta atribuição suave. Avaliamos nosso método no conjunto de dados padrão Oxford Buildings e apresentamos um novo conjunto de dados para avaliação. Nossos resultados superam o desempenho atual de recuperação de estado da arte nesses conjuntos de dados, particularmente em consultas com baixa recuperação inicial, onde técnicas como expansão de consultas sofrem. No geral, mostramos que a atribuição suave é sempre benéfica para a recuperação com vocabulários grandes, a um custo de requisitos de armazenamento aumentados para o índice.
Philbin et al. (Sun,) estudaram esta questão.