Key points are not available for this paper at this time.
Adversariales Training (AT) ist derzeit eine der effektivsten Methoden, um die Robustheit von tiefen neuronalen Netzwerken gegenüber adversarialen Angriffen zu erreichen. Die meisten AT-Methoden leiden jedoch unter robustem Overfitting, d.h. einer signifikanten Generalisierungslücke in der adversarialen Robustheit zwischen den Trainings- und Testkurven. In diesem Papier identifizieren wir zunächst eine Verbindung zwischen robustem Overfitting und der übermäßigen Speicherung von Rauschlabels im AT aus der Sicht des Gradientenorms. Da dieses Labelrauschen hauptsächlich durch ein Verteilungsungleichgewicht und unsachgemäße Labelzuweisungen verursacht wird, sind wir motiviert, einen Ansatz zur Labelverfeinerung für AT vorzuschlagen. Konkret verfeinert unsere Selbstgesteuerte Labelverfeinerung zunächst eine genauere und informativere Labelverteilung aus übermäßig zuversichtlichen harten Labels und kalibriert dann das Training, indem sie dynamisch Wissen aus selbst-destillierten Modellen in das aktuelle Modell einfließen lässt und somit keine externen Lehrer benötigt. Empirische Ergebnisse zeigen, dass unsere Methode die Standardgenauigkeit und die robuste Leistung über mehrere Benchmark-Datensätze, Angriffstypen und Architekturen hinweg gleichzeitig steigern kann. Darüber hinaus bieten wir auch eine Reihe von Analysen aus der Perspektive der Informationstheorie an, um in unsere Methode einzutauchen und die Bedeutung von weichen Labels für robuste Verallgemeinerung zu betonen.
Yu et al. (Thu,) haben diese Frage untersucht.