Key points are not available for this paper at this time.
Les Transformateurs Efficaces ont été développés pour la modélisation de longues séquences, en raison de leur complexité mémoire et temps subquadratique. Le Transformateur Sparse est une approche populaire pour améliorer l'efficacité des transformateurs en restreignant l'auto-attention aux emplacements spécifiés par des motifs épars prédéfinis. Cependant, tirer parti de la sparsité peut sacrifier l'expressivité par rapport à l'attention complète, lorsque des corrélations de tokens importantes sont à plusieurs sauts. Pour combiner les avantages de l'efficacité des transformateurs épars et de l'expressivité des transformateurs à attention complète, nous proposons Diffuser, un nouveau transformateur efficace à la pointe de la technologie. Diffuser incorpore toutes les interactions de tokens dans une couche d'attention tout en maintenant des coûts de calcul et de mémoire faibles. L'idée clé est d'élargir le champ réceptif de l'attention éparse en utilisant la Diffusion d'Attention, qui calcule des corrélations de tokens multi-sauts basées sur tous les chemins entre les tokens déconnectés correspondants, en plus de l'attention entre les tokens voisins. Théoriquement, nous montrons l'expressivité de Diffuser en tant qu'approximateur universel de séquences pour la modélisation séquence-à-séquence, et étudions sa capacité à approximer l'attention complète en analysant la propriété d'expansion de graphe du point de vue spectral. Expérimentalement, nous examinons l'efficacité de Diffuser avec des évaluations approfondies, y compris la modélisation de langue, la modélisation d'images, et le Long Range Arena (LRA). Les résultats d'évaluation montrent que Diffuser réalise des améliorations d'une moyenne de 0,94 % sur les tâches de classification de texte et 2,30 % sur le LRA, avec des économies de mémoire de 1,67x par rapport aux références à la pointe de la technologie, ce qui démontre la performance supérieure de Diffuser à la fois sur les aspects d'expressivité et d'efficacité.
Feng et al. (Mon,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: