Deep Learning verwendet mehrschichtige neuronale Netzwerke, die über den Backpropagation-Algorithmus trainiert werden. Dieser Ansatz hat in vielen Bereichen Erfolge erzielt und basiert auf adaptiven Gradientenverfahren wie dem Adam-Optimierer. Die Sequenzmodellierung hat sich von rekurrenten neuronalen Netzwerken zu auf Aufmerksamkeit basierenden Modellen entwickelt, die in der Transformer-Architektur gipfeln. Transformer haben im Bereich der natürlichen Sprachverarbeitung (zum Beispiel BERT und GPT-3) Spitzenleistungen erreicht und wurden in der Computer Vision und der rechnergestützten Biologie angewendet. Dennoch bleibt das theoretische Verständnis dieser Modelle begrenzt. In dieser Arbeit untersuchen wir die mathematischen Grundlagen des Deep Learning und der Transformer und präsentieren ein neuartiges theoretisches Ergebnis. Wir überprüfen zentrale Konzepte aus der linearen Algebra, der Wahrscheinlichkeit und der Optimierung, die dem Deep Learning zugrunde liegen, und analysieren den Multi-Head-Selbstaufmerksamkeitsmechanismus sowie den Backpropagation-Algorithmus im Detail. Unser Hauptbeitrag ist ein universeller Annäherungssatz für Transformer: Wir beweisen, dass ein einlagiger Transformer, bestehend aus einer Selbstaufmerksamkeits-Schicht, gefolgt von einem positionsspezifischen Feedforward-Netzwerk mit ReLU-Aktivierung, jede kontinuierliche Sequenz-zu-Sequenz-Abbildung auf einer kompakten Domäne mit willkürlicher Präzision approximieren kann. Wir bieten eine formelle Aussage und einen vollständigen Beweis an. Schließlich präsentieren wir Fallstudien, die die praktischen Implikationen dieses Ergebnisses demonstrieren. Unsere Ergebnisse erweitern das theoretische Verständnis von Transformer-Modellen und helfen, die Kluft zwischen Theorie und Praxis zu überbrücken.
Esmail Gumaan (Fr,) hat diese Frage untersucht.