Key points are not available for this paper at this time.
Apresentamos um novo filtro de spam que atua como uma camada adicional no processo de filtragem de spam. Este filtro é baseado no que chamamos de vocabulário representativo. E-mails de spam são divididos em categorias nas quais cada categoria é representada por um conjunto de tokens que formam um texto representativo (TR). Tokens são sequências de caracteres (palavras, frases ou às vezes sequências de caracteres sem sentido). Este TR é utilizado para calcular uma razão de semelhança com e-mails recebidos. Com esta razão, decidimos se o e-mail recebido é spam. Este filtro foi implementado e integrado ao software Spamihilator. Alguns resultados experimentais e interessantes são apresentados.
Pelletier et al. (Qui,) estudaram esta questão.