Key points are not available for this paper at this time.
Adam et RMSProp sont deux des algorithmes stochastiques adaptatifs les plus influents pour l'entraînement de réseaux de neurones profonds, qui ont été signalés comme divergents même dans le cadre convexe via quelques contre-exemples simples. De nombreuses tentatives, telles que la diminution d'un taux d'apprentissage adaptatif, l'adoption d'une grande taille de lot, l'incorporation d'une technique de décorélation temporelle, la recherche d'un analogue substitut, etc., ont été essayées pour promouvoir la convergence des algorithmes de type Adam/RMSProp. En contraste avec les approches existantes, nous introduisons une condition suffisante alternative facile à vérifier, qui dépend uniquement des paramètres du taux d'apprentissage de base et des combinaisons de moments d'ordre supérieur historiques, pour garantir la convergence globale d'Adam/RMSProp générique pour résoudre l'optimisation stochastique non convexe à grande échelle. De plus, nous montrons que les convergences de plusieurs variantes d'Adam, telles qu'AdamNC, AdaEMA, etc., peuvent être directement impliquées via la condition suffisante proposée dans le cadre non convexe. En outre, nous illustrons qu'Adam est essentiellement un AdaGrad spécifiquement pondéré avec une moyenne mobile exponentielle, ce qui offre une nouvelle perspective pour comprendre Adam et RMSProp. Cette observation couplée à cette condition suffisante donne des interprétations beaucoup plus profondes de leurs divergences. Enfin, nous validons la condition suffisante en appliquant Adam et RMSProp pour traiter un certain contre-exemple et entraîner des réseaux de neurones profonds. Les résultats numériques sont exactement conformes à notre analyse théorique.
Zou et al. (Sam,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: