May 8, 2007

Detectando quase-duplicatas para rastreamento na web

Key Points

Key points are not available for this paper at this time.

Abstract

Documentos web quase-duplicados são abundantes. Dois desses documentos diferem um do outro em uma porção muito pequena que exibe anúncios, por exemplo. Essas diferenças são irrelevantes para a busca na web. Assim, a qualidade de um crawler web aumenta se ele puder avaliar se uma nova página rastreada é uma quase-duplicata de uma página rastreada anteriormente ou não. No curso do desenvolvimento de um sistema de detecção de quase-duplicatas para um repositório de bilhões de páginas, fazemos duas contribuições de pesquisa. Primeiro, demonstramos que a técnica de impressão digital de Charikar é adequada para esse objetivo. Em segundo lugar, apresentamos uma técnica algorítmica para identificar impressões digitais de f-bit existentes que diferem de uma impressão digital dada em no máximo k posições de bits, para k pequeno. Nossa técnica é útil tanto para consultas online (impressões digitais únicas) quanto para todas as consultas em lote (múltiplas impressões digitais). A avaliação experimental em dados reais confirma a praticidade do nosso design.

Detectando quase-duplicatas para rastreamento na web

Key Points

Abstract

Cite This Study