January 1, 2019Open Access

Génération d'exemples adversariaux en langage naturel par le biais de la salience des mots pondérée par la probabilité

Key Points

Key points are not available for this paper at this time.

Abstract

Nous abordons le problème des attaques adversariales sur la classification de texte, qui est rarement étudié par rapport aux attaques sur la classification d'image. Le défi de cette tâche est de générer des exemples adversariaux qui maintiennent une correction lexicale, une correction grammaticale et une similarité sémantique. Basé sur la stratégie de substitution de synonymes, nous introduisons un nouvel ordre de remplacement de mots déterminé à la fois par la saillance des mots et la probabilité de classification, et proposons un algorithme glouton appelé saillance des mots pondérée par la probabilité (PWWS) pour les attaques adversariales sur le texte. Des expériences sur trois ensembles de données populaires utilisant des modèles de convolution ainsi que LSTM montrent que PWWS réduit au maximum la précision de classification tout en maintenant un très faible taux de substitution de mots. Une étude d'évaluation humaine montre que nos exemples adversariaux générés maintiennent bien la similarité sémantique et sont difficiles à percevoir pour les humains. La formation adversariale en utilisant nos ensembles de données perturbés améliore la robustesse des modèles. Enfin, notre méthode présente également une bonne transférabilité sur les exemples adversariaux générés.

Bookmark

View Full Paper