What type of study is this?

This is a Quantitative Study study.

October 7, 2025Open Access

Convergence du SGD tronqué sur des fonctions convexes (L₀, L₁) -lisses

Key Points

Le SGD tronqué atteint des taux de convergence à haute probabilité comparables à ceux des fonctions lisses L, améliorant les performances d'optimisation.
Le tronquage de gradient garantit que le taux de SGD est égalé jusqu'à des facteurs polylogarithmiques et des termes additifs, améliorant l'efficacité.
Une variation du SGD adaptatif avec tronquage de gradient est proposée, maintenant les mêmes garanties de convergence que le SGD standard.
Des expériences empiriques valident les résultats théoriques et explorent les implications pratiques des choix algorithmiques en optimisation.

Abstract

Nous étudions la descente de gradient stochastique (SGD) avec tronquage de gradient sur des fonctions convexes sous une hypothèse de lissage généralisée appelée (L₀, L₁) -lissage. En utilisant le tronquage de gradient, nous établissons un taux de convergence à haute probabilité qui correspond au taux de SGD dans le cas lisse en L, jusqu'à des facteurs polylogarithmiques et des termes additifs. Nous proposons également une variation du SGD adaptatif avec tronquage de gradient, qui atteint la même garantie. Nous réalisons des expériences empiriques pour examiner notre théorie et nos choix algorithmiques.

Convergence du SGD tronqué sur des fonctions convexes (L₀, L₁) -lisses

Key Points

Abstract

Cite This Study