Key points are not available for this paper at this time.
Les méthodes d'entraînement des réseaux de neurones à la pointe de la technologie dépendent du gradient de la fonction du réseau. Par conséquent, elles ne peuvent pas être appliquées à des réseaux dont les fonctions d'activation n'ont pas de dérivées utiles, telles que les réseaux de neurones binaires et à impulsions dans le temps discret. Pour surmonter ce problème, la dérivée de la fonction d'activation est souvent remplacée par une dérivée de remplacement, donnant lieu à l'apprentissage de gradients de remplacement (SGL). Cette méthode fonctionne bien en pratique mais manque de fondement théorique. Le noyau tangent neural (NTK) a prouvé son succès dans l'analyse de la descente de gradient. Ici, nous proposons une généralisation du NTK, que nous appelons le NTK de gradient de remplacement, qui permet l'analyse du SGL. Tout d'abord, nous étudions une extension naïve du NTK aux fonctions d'activation avec sauts, démontrant que la descente de gradient pour de telles fonctions d'activation est également mal posée dans la limite de largeur infinie. Pour résoudre ce problème, nous généralisons le NTK à la descente de gradient avec des dérivées de remplacement, c'est-à-dire SGL. Nous définissons soigneusement cette généralisation et étendons les théorèmes clés existants sur le NTK avec rigueur mathématique. De plus, nous illustrons nos résultats avec des expériences numériques. Enfin, nous comparons numériquement le SGL dans des réseaux avec fonction d'activation de signe et largeur finie à la régression par noyau avec le NTK de gradient de remplacement ; les résultats confirment que le NTK de gradient de remplacement fournit une bonne caractérisation du SGL.
Eilers et al. (Fri,) ont étudié cette question.