Key points are not available for this paper at this time.
Nous caractérisons la dynamique d'apprentissage de la descente de gradient stochastique (SGD) lorsque la symétrie continue existe dans la fonction de perte, où la divergence entre SGD et la descente de gradient est dramatique. Nous montrons que selon la manière dont la symétrie affecte la dynamique d'apprentissage, nous pouvons diviser une famille de symétries en deux classes. Pour une classe de symétrie, SGD converge naturellement vers des solutions qui ont un bruit de gradient équilibré et aligné. Pour l'autre classe de symétrie, SGD divergera presque toujours. Ensuite, nous montrons que notre résultat reste applicable et peut nous aider à comprendre la dynamique d'entraînement même lorsque la symétrie n'est pas présente dans la fonction de perte. Notre résultat principal est universel en ce sens qu'il dépend uniquement de l'existence de la symétrie et est indépendant des détails de la fonction de perte. Nous démontrons que la théorie proposée offre une explication de l'affinage progressif et du nivellement et peut être appliquée à des problèmes pratiques courants tels que la normalisation de la représentation, la factorisation matricielle et l'utilisation de l'échauffement.
Liu et al. (Sun) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: