Key points are not available for this paper at this time.
Wir untersuchen die Dynamik eines kontinuierlichen Modells des Stochastic Gradient Descent (SGD) für das Least-Squares-Problem. In der Tat, im Anschluss an die Arbeit von Li et al. (2019), analysieren wir stochastische Differenzialgleichungen (SDEs), die SGD entweder im Fall des Trainingsverlusts (endliche Proben) oder im Fall der Population (Online-Einstellung) modellieren. Ein entscheidendes qualitatives Merkmal der Dynamik ist die Existenz eines perfekten Interpolators der Daten, unabhängig von der Stichprobengröße. In beiden Szenarien liefern wir präzise, nicht-asymptotische Konvergenzraten zur (möglicherweise degenerierten) stationären Verteilung. Zusätzlich beschreiben wir diese asymptotische Verteilung, bieten Schätzungen ihres Mittelwerts, Abweichungen davon und einen Beweis für das Auftreten von Heavy-Tails in Bezug auf die Schrittgrößenmagnituden. Numerische Simulationen, die unsere Ergebnisse unterstützen, werden ebenfalls präsentiert.
Building similarity graph...
Analyzing shared references across papers
Loading...
Adrien Schertzer
Goethe University Frankfurt
Loucas Pillaud‐Vivien
École nationale des ponts et chaussées
Building similarity graph...
Analyzing shared references across papers
Loading...
Schertzer et al. (Tue,) untersuchten diese Frage.
synapsesocial.com/papers/68e61b7fb6db6435875ae531 — DOI: https://doi.org/10.48550/arxiv.2407.02322