Key points are not available for this paper at this time.
Trotz der beeindruckenden Möglichkeiten zur Bildgenerierung sind text-to-image Diffusionsmodelle anfällig dafür, unerwünschte Ausgaben wie NSFW-Inhalte und urheberrechtlich geschützte Kunstwerke zu produzieren. Um dieses Problem zu adressieren, haben sich recent Studien darauf konzentriert, die Modellparameter anzupassen, um problematische Konzepte zu löschen. Allerdings weisen bestehende Methoden einen großen Mangel an Robustheit auf, da feinabgestimmte Modelle oft die unerwünschten Ausgaben reproduzieren, wenn sie mit clever gestalteten Aufforderungen konfrontiert werden. Dies offenbart eine grundlegende Einschränkung der aktuellen Ansätze und kann Risiken für den Einsatz von Diffusionsmodellen in der offenen Welt mit sich bringen. Um diese Lücke zu schließen, lokalisieren wir die konzeptbezogenen Neuronen und stellen fest, dass diese Neuronen eine hohe Sensibilität gegenüber adversarialen Aufforderungen zeigen und somit beim Löschen deaktiviert und bei Angriffen wieder reaktiviert werden können. Um die Robustheit zu verbessern, führen wir eine neue auf Beschneidung basierende Strategie für das Löschen von Konzepten ein. Unsere Methode schneidet selektiv kritische Parameter ab, die mit den gezielten Konzepten verbunden sind, und verringert so die Sensibilität der konzeptbezogenen Neuronen. Unsere Methode kann leicht mit bestehenden Techniken zum Löschen von Konzepten integriert werden und bietet eine robuste Verbesserung gegenüber adversarialen Eingaben. Experimentelle Ergebnisse zeigen eine signifikante Verbesserung der Fähigkeit unseres Modells, sich gegen adversariale Eingaben zu wehren, mit nahezu 40 % Verbesserung beim Löschen von NSFW-Inhalten und 30 % Verbesserung beim Löschen von Kunststil.
Yang et al. (Sun,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: