May 27, 2024

Purification des perturbations adversariales basée sur un modèle de diffusion guidé par le texte

Key Points

Key points are not available for this paper at this time.

Abstract

Les réseaux de neurones profonds (DNN) ont trouvé de nombreuses applications dans divers domaines. Cependant, des recherches récentes ont révélé la vulnérabilité des DNN aux exemples adversariaux. Les méthodes d'attaque adversariales existantes peuvent facilement induire les modèles en erreur. De plus, bien que les techniques de débruitage traditionnelles dissuadent efficacement certaines attaques, elles présentent des limites. Pour y remédier, nous proposons la Purification par Modèle de Diffusion Guidé par Texte (TGDP), une méthode de purification des perturbations adversariales basée sur des modèles de diffusion. Cette méthode prétraite les images d'entrée pour purifier les perturbations adversariales. TGDP utilise Protogen x3.4 (Photorealisme) Version Officielle comme modèle de diffusion pour la génération d'images conditionnelles. Au cours du processus de génération, des informations textuelles sont intégrées pour améliorer le contrôle sur le modèle de diffusion au lieu de se fier entièrement à la randomité interne du modèle. En ajoutant de manière itérative du bruit gaussien pour perturber les exemples adversariaux et en inversant le processus d'ajout de bruit pour restaurer l'image par la suite, nous pouvons éliminer complètement les perturbations soigneusement élaborées, atteignant ainsi l'objectif de purification. D'importantes expérimentations sur le dataset ImageNet contre des attaques adversariales courantes démontrent que TGDP surpasse d'autres méthodes de défense appliquées au dataset ImageNet.

Bookmark

Purification des perturbations adversariales basée sur un modèle de diffusion guidé par le texte

Key Points

Abstract

Cite This Study