L'apprentissage profond utilise des réseaux de neurones multicouches formés via l'algorithme de rétropropagation. Cette approche a connu du succès dans de nombreux domaines et repose sur des méthodes de gradient adaptatives telles que l'optimiseur Adam. La modélisation des séquences a évolué des réseaux de neurones récurrents vers des modèles basés sur l'attention, aboutissant à l'architecture Transformer. Les transformeurs ont atteint des performances de pointe en traitement du langage naturel (par exemple, BERT et GPT-3) et ont été appliqués en vision par ordinateur et en biologie computationnelle. Cependant, la compréhension théorique de ces modèles reste limitée. Dans cet article, nous examinons les fondements mathématiques de l'apprentissage profond et des transformeurs et présentons un nouveau résultat théorique. Nous passons en revue des concepts clés de l'algèbre linéaire, de la probabilité et de l'optimisation qui soutiennent l'apprentissage profond, et nous analysons en détail le mécanisme d'auto-attention multi-tête et l'algorithme de rétropropagation. Notre principale contribution est un théorème d'approximation universelle pour les transformeurs : nous prouvons qu'un transformeur à une couche, composé d'une couche d'auto-attention suivie d'un réseau de neurones feed-forward par position avec activation ReLU, peut approximer n'importe quel mappage continu de séquence à séquence sur un domaine compact avec une précision arbitraire. Nous fournissons une déclaration formelle et une preuve complète. Enfin, nous présentons des études de cas qui démontrent les implications pratiques de ce résultat. Nos conclusions avancent la compréhension théorique des modèles Transformer et aident à combler l'écart entre théorie et pratique.
Esmail Gumaan (ven,) a étudié cette question.