What type of study is this?

This is a Experimental Study study.

October 9, 2025Open Access

Universelles Annäherungssatz für einen einlagigen Transformer

Key Points

Ein einlagiger Transformer kann jede kontinuierliche Sequenzabbildung mit willkürlicher Präzision approximieren und erweitert damit das theoretische Verständnis.
Das Hauptergebnis zeigt die Leistungsfähigkeit einer Selbstaufmerksamkeits-Schicht, gefolgt von einem positionsspezifischen Feedforward-Netzwerk mit ReLU-Aktivierung.
Durch die Überprüfung wesentlicher Konzepte aus der linearen Algebra und der Wahrscheinlichkeit verbessert dieses Papier das Wissen über Transformer im Deep Learning.
Fallstudien illustrieren die praktischen Implikationen dieses theoretischen Durchbruchs bei Transformermodellen.

Abstract

Deep Learning verwendet mehrschichtige neuronale Netzwerke, die über den Backpropagation-Algorithmus trainiert werden. Dieser Ansatz hat in vielen Bereichen Erfolge erzielt und basiert auf adaptiven Gradientenverfahren wie dem Adam-Optimierer. Die Sequenzmodellierung hat sich von rekurrenten neuronalen Netzwerken zu auf Aufmerksamkeit basierenden Modellen entwickelt, die in der Transformer-Architektur gipfeln. Transformer haben im Bereich der natürlichen Sprachverarbeitung (zum Beispiel BERT und GPT-3) Spitzenleistungen erreicht und wurden in der Computer Vision und der rechnergestützten Biologie angewendet. Dennoch bleibt das theoretische Verständnis dieser Modelle begrenzt. In dieser Arbeit untersuchen wir die mathematischen Grundlagen des Deep Learning und der Transformer und präsentieren ein neuartiges theoretisches Ergebnis. Wir überprüfen zentrale Konzepte aus der linearen Algebra, der Wahrscheinlichkeit und der Optimierung, die dem Deep Learning zugrunde liegen, und analysieren den Multi-Head-Selbstaufmerksamkeitsmechanismus sowie den Backpropagation-Algorithmus im Detail. Unser Hauptbeitrag ist ein universeller Annäherungssatz für Transformer: Wir beweisen, dass ein einlagiger Transformer, bestehend aus einer Selbstaufmerksamkeits-Schicht, gefolgt von einem positionsspezifischen Feedforward-Netzwerk mit ReLU-Aktivierung, jede kontinuierliche Sequenz-zu-Sequenz-Abbildung auf einer kompakten Domäne mit willkürlicher Präzision approximieren kann. Wir bieten eine formelle Aussage und einen vollständigen Beweis an. Schließlich präsentieren wir Fallstudien, die die praktischen Implikationen dieses Ergebnisses demonstrieren. Unsere Ergebnisse erweitern das theoretische Verständnis von Transformer-Modellen und helfen, die Kluft zwischen Theorie und Praxis zu überbrücken.

Universelles Annäherungssatz für einen einlagigen Transformer

Key Points

Abstract

Cite This Study