January 22, 2018Open Access

Textes Adversariaux avec Méthodes de Gradient

Key Points

Key points are not available for this paper at this time.

Abstract

Les échantillons adversariaux pour les images ont été largement étudiés dans la littérature. Parmi de nombreuses méthodes d'attaque, les méthodes basées sur le gradient sont à la fois efficaces et faciles à calculer. Dans ce travail, nous proposons un cadre pour adapter les méthodes d'attaque par gradient des images au domaine du texte. Les principales difficultés pour générer des textes adversariaux avec des méthodes de gradient sont i) l'espace d'entrée est discret, ce qui rend difficile l'accumulation de petits bruits directement dans les entrées, et ii) la mesure de la qualité des textes adversariaux est difficile. Nous abordons le premier problème en recherchant des adversariaux dans l'espace d'intégration et en reconstruisant ensuite les textes adversariaux via une recherche de plus proches voisins. Pour le second problème, nous employons la Distance de Mouvements de Mots (WMD) pour quantifier la qualité des textes adversariaux. À travers des expériences approfondies sur trois ensembles de données, critiques de films IMDB, Reuters-2 et Reuters-5, nous montrons que notre cadre peut tirer parti des méthodes d'attaque par gradient pour générer des textes adversariaux de très haute qualité, qui ne diffèrent des textes originaux que par quelques mots. Il existe de nombreux cas où nous pouvons changer un mot pour modifier l'étiquette de l'ensemble du texte. Nous intégrons avec succès FGM et DeepFool dans notre cadre. De plus, nous montrons empiriquement que la WMD est étroitement liée à la qualité des textes adversariaux.

Demander à l'IA

Bookmark

View Full Paper