Key points are not available for this paper at this time.
Die dominierenden Sequenz-Transduktionsmodelle basieren auf komplexen rekursiven oder konvolutionalen neuronalen Netzen in einer Encoder-Decoder-Konfiguration. Die leistungsstärksten Modelle verbinden auch den Encoder und den Decoder durch einen Aufmerksamkeitsmechanismus. Wir schlagen eine neue einfache Netzwerkarchitektur vor, den Transformer, der ausschließlich auf Aufmerksamkeitsmechanismen basiert und vollständig auf Rekursion und Konvolutionen verzichtet. Experimente in zwei maschinellen Übersetzungsaufgaben zeigen, dass diese Modelle in der Qualität überlegen sind, während sie paralleler bearbeitet werden können und erheblich weniger Zeit für das Training benötigen. Unser Modell erzielt 28,4 BLEU in der WMT 2014 Englisch-Deutsch Übersetzungsaufgabe und verbessert die bestehenden besten Ergebnisse, einschließlich Ensembles, um über 2 BLEU. In der WMT 2014 Englisch-Französisch Übersetzungsaufgabe erreicht unser Modell einen neuen Spitzenwert eines einzelnen Modells mit einem BLEU-Score von 41,8 nach 3,5 Tagen Training auf acht GPUs, was nur einen kleinen Teil der Trainingskosten der besten Modelle aus der Literatur ausmacht. Wir zeigen, dass der Transformer gut auf andere Aufgaben generalisiert, indem wir ihn erfolgreich auf die englische Konstituenten-Parsing sowohl mit großen als auch mit begrenzten Trainingsdaten anwenden.
Vaswani et al. (Sat,) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: