O notável sucesso dos modelos de deep learning em tarefas de visão, linguagem e tomada de decisão tem sido acompanhado por um crescente conjunto de evidências de que esses modelos são vulneráveis a ataques adversariais – perturbações cuidadosamente elaboradas que causam classificações errôneas com alta confiança, permanecendo imperceptíveis para os humanos, levantando assim preocupações fundamentais sobre sua confiabilidade, segurança e credibilidade em aplicações do mundo real. Desde a descoberta seminal dos exemplos adversariais por Szegedy et al. (2014) e sua formalização por métodos baseados em gradiente por Goodfellow et al. (2015), a robustez adversarial emergiu como um desafio central e interdisciplinar na pesquisa em inteligência artificial confiável, abrangendo aprendizado de máquina, segurança e sistemas críticos para segurança. Neste artigo, apresentamos uma revisão abrangente dos ataques adversariais e estratégias de defesa em modelos de deep learning, sintetizando desenvolvimentos teóricos e empíricos chave de 2000 a 2021, destacando como o campo evoluiu desde os primeiros modelos de ameaça até os modernos frameworks de robustez. Categoricamente, organizamos as metodologias de ataque em ataques white-box, black-box e do mundo físico, analisamos seus mecanismos subjacentes, transferibilidade e viabilidade prática, e examinamos principais mecanismos de defesa incluindo treinamento adversarial, destilação defensiva, métodos baseados em ensemble e defesas certificadas, junto com suas forças, limitações e compensações computacionais. Além disso, discutimos as implicações práticas da vulnerabilidade adversarial para sistemas implantados em domínios como direção autônoma, biometria, saúde e cibersegurança. Com base em figuras representativas incluindo visualização do Fast Gradient Sign Method (FGSM), demonstrações de exemplos adversariais no mundo físico e evidências empíricas de experimentos de treinamento adversarial, ilustramos tanto a fragilidade quanto a resiliência das redes neurais profundas perante manipulações adversariais. Finalmente, delineamos desafios persistentes e promissoras direções futuras de pesquisa visando desenvolver sistemas de IA mais robustos, interpretáveis e confiáveis que possam resistir a ameaças adversariais adaptativas e do mundo real.
Turner et al. (Sat,) estudaram esta questão.