What type of study is this?

This is a Quantitative Study study.

October 16, 2025Open Access

Stabile Minima von ReLU-Neuronalen Netzwerken leiden unter dem Fluch der Dimensionalität: Das Phänomen des Neuronalen Zerschmetterns

Key Points

Flache Lösungen in ReLU-Netzwerken zeigen Verschlechterung der Konvergenzraten, wenn die Eingabedimensionen zunehmen, was zu schlechterer Generalisierung führt.
Obere und untere Schranken für Generalisierungslücken und mittlerer quadratischer Fehler offenbaren kritische Einblicke in die Leistung flacher Minima.
Die Minimax-Untergrenzen-Konstruktion veranschaulicht, wie flache Lösungen an neuronalen Zerschmetterungen beteiligt sind, was zu begrenzter Aktivierung und dennoch hohen Gewichten führt.
Die Ergebnisse beantworten, warum flachere Minima möglicherweise Schwierigkeiten haben, effektiv in hochdimensionalen Einstellungen zu generalisieren.

Abstract

Wir untersuchen die implizite Verzerrung von Flachheit / niedriger (Verlust) Krümmung und deren Auswirkungen auf die Generalisierung in zwei-schichtigen überparametrisierten ReLU-Netzwerken mit multivariaten Eingaben – ein Problem, das gut durch die Minima-Stabilität und das Edge-of-Stability-Phänomen im Gradient-Abstiegs-Training motiviert ist. Vorhandene Arbeiten erfordern entweder Interpolation oder konzentrieren sich nur auf univariate Eingaben. Dieses Papier präsentiert neue und etwas überraschende theoretische Ergebnisse für multivariate Eingaben. In zwei natürlichen Einstellungen (1) Generalisierungslücke für flache Lösungen und (2) mittlerer quadratischer Fehler (MSE) bei nichtparametrischer Funktionsschätzung durch stabile Minima, beweisen wir obere und untere Schranken, die feststellen, dass während Flachheit Generalisierung impliziert, die resultierenden Konvergenzraten zwangsläufig exponentiell verschlechtern, wenn die Eingabedimension wächst. Dies führt zu einer exponentiellen Trennung zwischen flachen Lösungen im Vergleich zu Lösungen mit niedriger Norm (d.h. Gewichtverfall), die bekanntlich nicht unter dem Fluch der Dimensionalität leiden. Insbesondere zeigt unsere Minimax-Untergrenzen-Konstruktion, basierend auf einem neuartigen Verpackungsargument mit grenzlokalisierten ReLU-Neuronen, wie flache Lösungen eine Art von "neuronalen Zerschmettern" ausnutzen können, bei dem Neuronen selten aktiviert werden, aber mit hohen Gewichtsmagnituden. Dies führt zu einer schlechten Leistung in hohen Dimensionen. Wir bestätigen diese theoretischen Ergebnisse durch umfangreiche numerische Simulationen. Nach unseren besten Wissen bietet unsere Analyse die erste systematische Erklärung dafür, warum flache Minima möglicherweise Schwierigkeiten bei der Generalisierung in hohen Dimensionen haben.

Stabile Minima von ReLU-Neuronalen Netzwerken leiden unter dem Fluch der Dimensionalität: Das Phänomen des Neuronalen Zerschmetterns

Key Points

Abstract

Cite This Study