Nous étudions la descente de gradient stochastique (SGD) avec tronquage de gradient sur des fonctions convexes sous une hypothèse de lissage généralisée appelée (L₀, L₁) -lissage. En utilisant le tronquage de gradient, nous établissons un taux de convergence à haute probabilité qui correspond au taux de SGD dans le cas lisse en L, jusqu'à des facteurs polylogarithmiques et des termes additifs. Nous proposons également une variation du SGD adaptatif avec tronquage de gradient, qui atteint la même garantie. Nous réalisons des expériences empiriques pour examiner notre théorie et nos choix algorithmiques.
Gaash et al. (Sun,) ont étudié cette question.