Los puntos clave no están disponibles para este artículo en este momento.
Las arquitecturas basadas en atención se han vuelto omnipresentes en el aprendizaje automático, sin embargo, la comprensión de las razones de su efectividad sigue siendo limitada. Esto propone una nueva forma de entender las redes de auto-atención: mostramos que la salida se puede descomponer en una suma de términos más pequeños, cada uno involucrando una secuencia de cabezas de atención a lo largo de las capas. Usando esto, demostramos que la auto-atención posee un fuerte sesgo inductivo "uniformidad de token". Específicamente, sin conexiones de salto o perceptrones multicapa (MLPs), la salida converge de manera exponencial doble a una matriz de -1. Por otro lado, las conexiones de salto y los MLPs detienen la degeneración de la salida. Nuestros experimentos verifican los fenómenos de convergencia identificados en diferentes variantes de arquitecturas de transformadores estándar.
Dong et al. (Jue,) estudiaron esta cuestión.