Key points are not available for this paper at this time.
Avec la rapide propagation des techniques d'apprentissage automatique, le partage et l'adoption de modèles d'apprentissage automatique publics deviennent très populaires. Cela donne aux attaquants de nombreuses nouvelles opportunités. Dans cet article, nous proposons une attaque par Trojan sur les réseaux de neurones. Comme les modèles ne sont pas intuitifs pour l'homme, l'attaque présente un caractère furtif. Le déploiement de modèles contaminés peut entraîner diverses conséquences graves, y compris mettre en danger des vies humaines (dans des applications telles que la conduite autonome). Nous inversions d'abord le réseau de neurones pour générer un déclencheur Trojan général, puis nous réentraînons le modèle avec des données d'entraînement inversées pour injecter des comportements malveillants dans le modèle. Les comportements malveillants ne sont activés que par des entrées marquées avec le déclencheur Trojan. Dans notre attaque, nous n'avons pas besoin de modifier le processus d'entraînement original, qui prend généralement des semaines à des mois. Au lieu de cela, il ne faut que quelques minutes à quelques heures pour appliquer notre attaque. De plus, nous n'exigeons pas les ensembles de données utilisés pour entraîner le modèle. En pratique, les ensembles de données ne sont généralement pas partagés en raison de préoccupations liées à la vie privée ou aux droits d'auteur. Nous utilisons cinq applications différentes pour démontrer la puissance de notre attaque et effectuons une analyse approfondie sur les facteurs possibles qui affectent l'attaque. Les résultats montrent que notre attaque est hautement efficace et efficiente. Les comportements contaminés peuvent être déclenchés avec succès (avec près de 100 % de possibilités) sans affecter la précision de test pour les entrées normales et même avec une meilleure précision sur les ensembles de données publics. De plus, il ne faut qu'un petit temps pour attaquer un modèle de réseau de neurones complexe. Enfin, nous discutons également des défenses possibles contre de telles attaques.
Liu et al. (Mon,) ont étudié cette question.