Key points are not available for this paper at this time.
Les réseaux de neurones peuvent identifier des structures pertinentes de faible dimension au sein de données bruyantes à haute dimension, mais notre compréhension mathématique de la manière dont ils y parviennent reste limitée. Ici, nous étudions la dynamique d'entraînement de réseaux de neurones peu profonds à deux couches formés avec des algorithmes basés sur le gradient, et discutons de la manière dont ils apprennent des caractéristiques pertinentes dans des modèles multi-index, c'est-à-dire des fonctions cibles avec des directions pertinentes de faible dimension. Dans le régime de haute dimension, où la dimension d'entrée d diverge, nous montrons qu'une simple modification du scénario idéalisé d'entraînement par descente de gradient en une seule passe, où les données peuvent maintenant être répétées ou itérées deux fois, améliore considérablement son efficacité computationnelle. En particulier, cela dépasse les limitations que l'on croyait auparavant dictées par les exponents d'information et de saut associés à la fonction cible à apprendre. Nos résultats mettent en lumière la capacité des réseaux à apprendre des structures pertinentes à partir des données sans aucun prétraitement. Plus précisément, nous montrons que (presque) toutes les directions sont apprises avec au maximum O(d d) étapes. Parmi les exceptions, il y a un ensemble de fonctions difficiles qui inclut des parités éparses. En présence de couplage entre les directions, cependant, celles-ci peuvent être apprises séquentiellement à travers un mécanisme hiérarchique qui généralise la notion de fonctions en escaliers. Nos résultats sont prouvés par une étude rigoureuse de l'évolution des statistiques pertinentes pour les dynamiques à haute dimension.
Arnaboldi et al. (Fri,) ont étudié cette question.