May 26, 2024Open Access

Beschneidung für robustes Konzept-Löschen in Diffusionsmodellen

Key Points

Key points are not available for this paper at this time.

Abstract

Trotz der beeindruckenden Möglichkeiten zur Bildgenerierung sind text-to-image Diffusionsmodelle anfällig dafür, unerwünschte Ausgaben wie NSFW-Inhalte und urheberrechtlich geschützte Kunstwerke zu produzieren. Um dieses Problem zu adressieren, haben sich recent Studien darauf konzentriert, die Modellparameter anzupassen, um problematische Konzepte zu löschen. Allerdings weisen bestehende Methoden einen großen Mangel an Robustheit auf, da feinabgestimmte Modelle oft die unerwünschten Ausgaben reproduzieren, wenn sie mit clever gestalteten Aufforderungen konfrontiert werden. Dies offenbart eine grundlegende Einschränkung der aktuellen Ansätze und kann Risiken für den Einsatz von Diffusionsmodellen in der offenen Welt mit sich bringen. Um diese Lücke zu schließen, lokalisieren wir die konzeptbezogenen Neuronen und stellen fest, dass diese Neuronen eine hohe Sensibilität gegenüber adversarialen Aufforderungen zeigen und somit beim Löschen deaktiviert und bei Angriffen wieder reaktiviert werden können. Um die Robustheit zu verbessern, führen wir eine neue auf Beschneidung basierende Strategie für das Löschen von Konzepten ein. Unsere Methode schneidet selektiv kritische Parameter ab, die mit den gezielten Konzepten verbunden sind, und verringert so die Sensibilität der konzeptbezogenen Neuronen. Unsere Methode kann leicht mit bestehenden Techniken zum Löschen von Konzepten integriert werden und bietet eine robuste Verbesserung gegenüber adversarialen Eingaben. Experimentelle Ergebnisse zeigen eine signifikante Verbesserung der Fähigkeit unseres Modells, sich gegen adversariale Eingaben zu wehren, mit nahezu 40 % Verbesserung beim Löschen von NSFW-Inhalten und 30 % Verbesserung beim Löschen von Kunststil.

Beschneidung für robustes Konzept-Löschen in Diffusionsmodellen

Key Points

Abstract

Cite This Study

Also Consider

Also Consider