June 10, 2024Open Access

Universalité des tailles de pas d'AdaGrad pour l'optimisation stochastique : oracle inexact, accélération et réduction de variance

Key Points

Key points are not available for this paper at this time.

Abstract

Nous présentons des méthodes de gradient adaptatif (à la fois de base et accélérées) pour résoudre des problèmes d'optimisation convexe composite où la partie principale est approximativement lisse (a.k.a. (, L) -lisse) et ne peut être accessible que via un oracle de gradient stochastique (potentiellement biaisé). Ce cadre couvre de nombreux exemples intéressants, y compris des problèmes lisses de H\"older et divers calculs inexactes du gradient stochastique. Nos méthodes utilisent des tailles de pas AdaGrad et sont adaptatives en ce sens qu'elles ne nécessitent pas de connaître des constantes dépendantes du problème sauf une estimation du diamètre de l'ensemble faisable tout en réalisant néanmoins les meilleurs taux de convergence possibles comme si elles connaissaient les constantes correspondantes. Nous démontrons que les tailles de pas d'AdaGrad fonctionnent dans une variété de situations en prouvant, de manière unifiée, trois types de nouveaux résultats. Tout d'abord, nous établissons des garanties d'efficacité pour nos méthodes dans le cadre classique où la variance de l'oracle est uniformément bornée. Nous montrons ensuite que, sous des hypothèses plus raffinées sur la variance, les mêmes méthodes sans aucune modification bénéficient de propriétés implicites de réduction de variance nous permettant d'exprimer leurs estimations de complexité en termes de variance uniquement au minimiseur. Enfin, nous montrons comment incorporer une réduction de variance explicite de type SVRG dans nos méthodes et obtenir des algorithmes encore plus rapides. Dans les trois cas, nous présentons à la fois des algorithmes de base et accelerés atteignant des bornes de complexité à la pointe de la technologie. Comme corollaire direct de nos résultats, nous obtenons des méthodes de gradient stochastique universelles pour les problèmes lisses de H\"older qui peuvent être utilisées dans toutes les situations.

Universalité des tailles de pas d'AdaGrad pour l'optimisation stochastique : oracle inexact, accélération et réduction de variance

Key Points

Abstract

Cite This Study