Key points are not available for this paper at this time.
Les réseaux de neurones présentent souvent des comportements émergents, où de nouvelles capacités qualitativement différentes apparaissent en augmentant le nombre de paramètres, les données d'entraînement ou les étapes d'entraînement. Une approche pour comprendre l'émergence consiste à trouver des mesures de progrès continues qui sous-tendent les changements qualitatifs apparemment discontinus. Nous soutenons que les mesures de progrès peuvent être trouvées via l'interprétabilité mécaniste : le rétroingénierie des comportements appris en leurs composants individuels. Comme étude de cas, nous examinons le phénomène récemment découvert du ``grokking'' observé chez de petits transformateurs entraînés sur des tâches d'addition modulaire. Nous effectuons une rétro-ingénierie complète de l'algorithme appris par ces réseaux, qui utilise des transformations de Fourier discrètes et des identités trigonométriques pour convertir l'addition en rotation autour d'un cercle. Nous confirmons l'algorithme en analysant les activations et les poids et en effectuant des ablations dans l'espace de Fourier. Sur la base de cette compréhension, nous définissons des mesures de progrès qui nous permettent d'étudier la dynamique de l'entraînement et de diviser l'entraînement en trois phases continues : mémorisation, formation de circuits, et nettoyage. Nos résultats montrent que le grokking, plutôt qu'un changement soudain, émerge de l'amplification progressive des mécanismes structurés codés dans les poids, suivie du retrait ultérieur des composants de mémorisation.
Nanda et al. (Thu,) ont étudié cette question.