What type of study is this?

This is a Experimental Study study.

October 9, 2025Open Access

Théorème d'approximation universelle pour un transformeur à une couche

Key Points

Un transformeur à une couche peut approximer n'importe quel mappage de séquence continu avec une précision arbitraire, faisant avancer la compréhension théorique.
Le résultat principal met en lumière la puissance d'une couche d'auto-attention suivie d'un réseau de neurones feed-forward par position utilisant l'activation ReLU.
En passant en revue des concepts essentiels de l'algèbre linéaire et de la probabilité, cet article améliore les connaissances sur les transformeurs dans l'apprentissage profond.
Les études de cas illustrent les implications pratiques de cette percée théorique dans les modèles de transformeurs.

Abstract

L'apprentissage profond utilise des réseaux de neurones multicouches formés via l'algorithme de rétropropagation. Cette approche a connu du succès dans de nombreux domaines et repose sur des méthodes de gradient adaptatives telles que l'optimiseur Adam. La modélisation des séquences a évolué des réseaux de neurones récurrents vers des modèles basés sur l'attention, aboutissant à l'architecture Transformer. Les transformeurs ont atteint des performances de pointe en traitement du langage naturel (par exemple, BERT et GPT-3) et ont été appliqués en vision par ordinateur et en biologie computationnelle. Cependant, la compréhension théorique de ces modèles reste limitée. Dans cet article, nous examinons les fondements mathématiques de l'apprentissage profond et des transformeurs et présentons un nouveau résultat théorique. Nous passons en revue des concepts clés de l'algèbre linéaire, de la probabilité et de l'optimisation qui soutiennent l'apprentissage profond, et nous analysons en détail le mécanisme d'auto-attention multi-tête et l'algorithme de rétropropagation. Notre principale contribution est un théorème d'approximation universelle pour les transformeurs : nous prouvons qu'un transformeur à une couche, composé d'une couche d'auto-attention suivie d'un réseau de neurones feed-forward par position avec activation ReLU, peut approximer n'importe quel mappage continu de séquence à séquence sur un domaine compact avec une précision arbitraire. Nous fournissons une déclaration formelle et une preuve complète. Enfin, nous présentons des études de cas qui démontrent les implications pratiques de ce résultat. Nos conclusions avancent la compréhension théorique des modèles Transformer et aident à combler l'écart entre théorie et pratique.

Théorème d'approximation universelle pour un transformeur à une couche

Key Points

Abstract

Cite This Study