Key points are not available for this paper at this time.
Tiefe neuronale Netzwerke sind leistungsstarke und populäre Lernmodelle, die in vielen Aufgaben der Computer Vision, Sprach- und Sprachverarbeitung eine Spitzenleistung bei der Mustererkennung erzielen. Allerdings haben sich diese Netzwerke auch als anfällig für gezielte adversarielle Störungen erwiesen, die eine Fehlklassifizierung der Eingaben erzwingen. Adversarielle Beispiele ermöglichen es Angreifern, das erwartete Systemverhalten zu untergraben, was zu unerwünschten Konsequenzen führen kann und ein Sicherheitsrisiko darstellen könnte, wenn diese Systeme in der realen Welt eingesetzt werden. In dieser Arbeit konzentrieren wir uns auf tiefe konvolutionale neuronale Netzwerke und zeigen, dass Angreifer leicht adversarielle Beispiele erstellen können, selbst ohne internes Wissen über das Zielnetzwerk. Unsere Angriffe behandeln das Netzwerk als Orakel (Black-Box) und nehmen nur an, dass der Ausgang des Netzwerks bei den getesteten Eingaben beobachtet werden kann. Unsere Angriffe nutzen eine neuartige, auf lokaler Suche basierende Technik, um eine numerische Approximation des Netzwerkgradienten zu erstellen, die dann sorgfältig verwendet wird, um eine kleine Menge an Pixeln in einem Bild zu stören. Wir demonstrieren, wie diese zugrunde liegende Idee angepasst werden kann, um mehrere starke Begriffe der Fehlklassifizierung zu erreichen. Die Einfachheit und Effektivität unserer vorgeschlagenen Strategien bedeuten, dass sie als Test für die Gestaltung robuster Netzwerke dienen könnten.
Narodytska et al. (Sat,) haben diese Frage untersucht.