January 1, 2019Open Access

Analizando la auto-atención multi-cabeza: las cabezas especializadas hacen el trabajo pesado, el resto puede ser podado

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

La auto-atención multi-cabeza es un componente clave del Transformer, una arquitectura de vanguardia para la traducción automática neural. En este trabajo evaluamos la contribución realizada por cabezas de atención individuales en el codificador a la performance general del modelo y analizamos los roles que desempeñan. Encontramos que las cabezas más importantes y confiables juegan roles consistentes y a menudo interpretables lingüísticamente. Al podar cabezas utilizando un método basado en compuertas estocásticas y una relajación diferenciable de la penalización L 0, observamos que las cabezas especializadas son las últimas en ser podadas. Nuestro nuevo método de poda elimina la gran mayoría de cabezas sin afectar seriamente el rendimiento. Por ejemplo, en el dataset WMT inglés-ruso, podar 38 de 48 cabezas del codificador resulta en una caída de solo 0.15 BLEU. 1

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo