May 24, 2024Open Access

Repetita Iuvant : La répétition des données permet à SGD d'apprendre des fonctions multi-index à haute dimension

Key Points

Key points are not available for this paper at this time.

Abstract

Les réseaux de neurones peuvent identifier des structures pertinentes de faible dimension au sein de données bruyantes à haute dimension, mais notre compréhension mathématique de la manière dont ils y parviennent reste limitée. Ici, nous étudions la dynamique d'entraînement de réseaux de neurones peu profonds à deux couches formés avec des algorithmes basés sur le gradient, et discutons de la manière dont ils apprennent des caractéristiques pertinentes dans des modèles multi-index, c'est-à-dire des fonctions cibles avec des directions pertinentes de faible dimension. Dans le régime de haute dimension, où la dimension d'entrée d diverge, nous montrons qu'une simple modification du scénario idéalisé d'entraînement par descente de gradient en une seule passe, où les données peuvent maintenant être répétées ou itérées deux fois, améliore considérablement son efficacité computationnelle. En particulier, cela dépasse les limitations que l'on croyait auparavant dictées par les exponents d'information et de saut associés à la fonction cible à apprendre. Nos résultats mettent en lumière la capacité des réseaux à apprendre des structures pertinentes à partir des données sans aucun prétraitement. Plus précisément, nous montrons que (presque) toutes les directions sont apprises avec au maximum O(d d) étapes. Parmi les exceptions, il y a un ensemble de fonctions difficiles qui inclut des parités éparses. En présence de couplage entre les directions, cependant, celles-ci peuvent être apprises séquentiellement à travers un mécanisme hiérarchique qui généralise la notion de fonctions en escaliers. Nos résultats sont prouvés par une étude rigoureuse de l'évolution des statistiques pertinentes pour les dynamiques à haute dimension.

Read Full Paperexternally

Demander à l'IA

Bookmark

View Full Paper