March 3, 2026

Les retards dans la généralisation correspondent aux changements retardés dans la géométrie représentationnelle

Key Points

La généralisation retardée, ou grokking, se produit après des changements significatifs dans la géométrie représentationnelle.
Le noyau tangent neural s'écarte de manière significative avant que les performances de test ne s'améliorent, indiquant un apprentissage riche.
L'analyse empirique sur les tâches de classification d'images révèle que les régimes d'entraînement paresseux et riches peuvent se découpler de la généralisation.
Les changements dans la géométrie représentationnelle peuvent mieux expliquer la dynamique du grokking que les métriques antérieures.

Abstract

La généralisation retardée, également connue sous le nom de « grokking », a émergé comme un phénomène bien répliqué dans les réseaux de neurones surparamétrés. Des travaux théoriques récents ont associé le grokking à la transition d'un régime d'apprentissage paresseux à un régime d'apprentissage riche, mesurée comme le changement dans le Neural Tangent Kernel (NTK) depuis son état initial. Ici, nous présentons une étude empirique sur des tâches de classification d'images. Surprenamment, nous démontrons que le NTK diverge de son état initial de manière significative avant le début du grokking, c'est-à-dire avant l'augmentation des performances de test, suggérant qu'un apprentissage riche se produit avant la généralisation. Pour expliquer cette différence, nous examinons plutôt la géométrie représentationnelle du réseau et constatons que le grokking coïncide dans le temps avec une augmentation rapide de la capacité des variétés et des métriques de géométrie efficace améliorées. Notamment, cette transition abrupte est absente lorsque la généralisation n'est pas retardée. Nos résultats sur des données réelles montrent que les régimes d'entraînement paresseux et riches peuvent se découpler de la généralisation soudaine. En revanche, les changements dans la géométrie représentationnelle restent étroitement liés et peuvent donc mieux expliquer la dynamique du grokking.

Bookmark

Les retards dans la généralisation correspondent aux changements retardés dans la géométrie représentationnelle

Key Points

Abstract

Cite This Study