Key points are not available for this paper at this time.
Perturbações adversariais de imagens normais geralmente são imperceptíveis, mas podem confundir seriamente os algoritmos de aprendizado de máquina de última geração. O que as torna tão especiais aos olhos dos classificadores de imagens? Neste trabalho, mostramos empiricamente que exemplos adversariais estão principalmente nas regiões baixas da distribuição de treinamento, independente dos tipos de ataques e modelos alvo. Usando testes de hipóteses estatísticas, descobrimos que modelos de densidade modernos são surpreendentemente bons em detectar imagens imperceptíveis. Com base nessa descoberta, idealizamos o PixelDefend, uma nova abordagem que purifica uma imagem maliciosamente perturbada, movendo-a de volta em direção ao espaço visto nos dados de treinamento. A imagem purificada é então alimentada de um classificador não modificado, tornando nosso método agnóstico tanto ao classificador quanto ao método de ataque. Como resultado, o PixelDefend pode ser usado para proteger modelos já existentes e ser combinado com outras defesas específicas de modelos. Experimentos demonstram que nosso método melhora extremamente a resiliência em uma ampla variedade de métodos de ataque de ponta, aumentando a precisão no ataque mais forte de 63% para 84% no Fashion MNIST e de 32% para 70% no CIFAR-10.
Song et al. (Mon,) estudaram essa questão.