Wir untersuchen die implizite Verzerrung von Flachheit / niedriger (Verlust) Krümmung und deren Auswirkungen auf die Generalisierung in zwei-schichtigen überparametrisierten ReLU-Netzwerken mit multivariaten Eingaben – ein Problem, das gut durch die Minima-Stabilität und das Edge-of-Stability-Phänomen im Gradient-Abstiegs-Training motiviert ist. Vorhandene Arbeiten erfordern entweder Interpolation oder konzentrieren sich nur auf univariate Eingaben. Dieses Papier präsentiert neue und etwas überraschende theoretische Ergebnisse für multivariate Eingaben. In zwei natürlichen Einstellungen (1) Generalisierungslücke für flache Lösungen und (2) mittlerer quadratischer Fehler (MSE) bei nichtparametrischer Funktionsschätzung durch stabile Minima, beweisen wir obere und untere Schranken, die feststellen, dass während Flachheit Generalisierung impliziert, die resultierenden Konvergenzraten zwangsläufig exponentiell verschlechtern, wenn die Eingabedimension wächst. Dies führt zu einer exponentiellen Trennung zwischen flachen Lösungen im Vergleich zu Lösungen mit niedriger Norm (d.h. Gewichtverfall), die bekanntlich nicht unter dem Fluch der Dimensionalität leiden. Insbesondere zeigt unsere Minimax-Untergrenzen-Konstruktion, basierend auf einem neuartigen Verpackungsargument mit grenzlokalisierten ReLU-Neuronen, wie flache Lösungen eine Art von "neuronalen Zerschmettern" ausnutzen können, bei dem Neuronen selten aktiviert werden, aber mit hohen Gewichtsmagnituden. Dies führt zu einer schlechten Leistung in hohen Dimensionen. Wir bestätigen diese theoretischen Ergebnisse durch umfangreiche numerische Simulationen. Nach unseren besten Wissen bietet unsere Analyse die erste systematische Erklärung dafür, warum flache Minima möglicherweise Schwierigkeiten bei der Generalisierung in hohen Dimensionen haben.
Liang et al. (Mittwoch) haben diese Frage untersucht.