Los puntos clave no están disponibles para este artículo en este momento.
La auto-atención multi-cabeza es un componente clave del Transformer, una arquitectura de vanguardia para la traducción automática neural. En este trabajo evaluamos la contribución realizada por cabezas de atención individuales en el codificador a la performance general del modelo y analizamos los roles que desempeñan. Encontramos que las cabezas más importantes y confiables juegan roles consistentes y a menudo interpretables lingüísticamente. Al podar cabezas utilizando un método basado en compuertas estocásticas y una relajación diferenciable de la penalización L 0, observamos que las cabezas especializadas son las últimas en ser podadas. Nuestro nuevo método de poda elimina la gran mayoría de cabezas sin afectar seriamente el rendimiento. Por ejemplo, en el dataset WMT inglés-ruso, podar 38 de 48 cabezas del codificador resulta en una caída de solo 0.15 BLEU. 1
Voita et al. (Tue,) estudiaron esta pregunta.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: