Key points are not available for this paper at this time.
Transformadores eficientes foram desenvolvidos para modelagem de sequências longas, devido à sua complexidade de memória e tempo subquadrática. O Transformador Esparso é uma abordagem popular para melhorar a eficiência dos Transformadores ao restringir a autoatenção a locais especificados por padrões esparsos pré-definidos. No entanto, aproveitar a esparsidade pode sacrificar a expressividade em comparação com a autoatenção completa, quando as correlações de tokens importantes estão a várias passagens de distância. Para combinar as vantagens tanto da eficiência do transformador esparso quanto da expressividade do Transformador de autoatenção completa, propomos o Diffuser, um novo transformador eficiente de última geração. O Diffuser incorpora todas as interações de tokens dentro de uma camada de atenção enquanto mantém baixos custos de computação e memória. A ideia chave é expandir o campo receptivo da atenção esparsa usando Difusão de Atenção, que computa correlações de tokens de múltiplas passagens com base em todos os caminhos entre tokens desconectados correspondentes, além da atenção entre tokens vizinhos. Teoricamente, mostramos a expressividade do Diffuser como um aproximador de sequência universal para modelagem de sequência para sequência, e investigamos sua capacidade de aproximar a autoatenção completa analisando a propriedade do expandidor gráfico sob a perspectiva espectral. Experimentalmente, investigamos a eficácia do Diffuser com avaliações extensivas, incluindo modelagem de linguagem, modelagem de imagem e Long Range Arena (LRA). Os resultados da avaliação mostram que o Diffuser alcança melhorias médias de 0,94% em tarefas de classificação de texto e 2,30% no LRA, com economias de memória de 1,67x em comparação com benchmarks de última geração, o que demonstra o desempenho superior do Diffuser tanto em aspectos de expressividade quanto de eficiência.
Feng et al. (Mon,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: