La généralisation retardée, également connue sous le nom de « grokking », a émergé comme un phénomène bien répliqué dans les réseaux de neurones surparamétrés. Des travaux théoriques récents ont associé le grokking à la transition d'un régime d'apprentissage paresseux à un régime d'apprentissage riche, mesurée comme le changement dans le Neural Tangent Kernel (NTK) depuis son état initial. Ici, nous présentons une étude empirique sur des tâches de classification d'images. Surprenamment, nous démontrons que le NTK diverge de son état initial de manière significative avant le début du grokking, c'est-à-dire avant l'augmentation des performances de test, suggérant qu'un apprentissage riche se produit avant la généralisation. Pour expliquer cette différence, nous examinons plutôt la géométrie représentationnelle du réseau et constatons que le grokking coïncide dans le temps avec une augmentation rapide de la capacité des variétés et des métriques de géométrie efficace améliorées. Notamment, cette transition abrupte est absente lorsque la généralisation n'est pas retardée. Nos résultats sur des données réelles montrent que les régimes d'entraînement paresseux et riches peuvent se découpler de la généralisation soudaine. En revanche, les changements dans la géométrie représentationnelle restent étroitement liés et peuvent donc mieux expliquer la dynamique du grokking.
Zheng et al. (Mon,) ont étudié cette question.