Key points are not available for this paper at this time.
O grande sucesso dos modelos baseados em Transformer se beneficia do poderoso mecanismo de auto-atenção com múltiplas cabeças, que aprende dependências de tokens e codifica informações contextuais da entrada. Trabalhos anteriores se esforçam para atribuir decisões do modelo a características de entrada individuais com diferentes medidas de saliência, mas falham em explicar como essas características de entrada interagem entre si para alcançar previsões. Neste artigo, propomos um método de atribuição de auto-atenção para interpretar as interações de informação dentro do Transformer. Tomamos o BERT como exemplo para conduzir estudos extensivos. Primeiramente, aplicamos a atribuição de auto-atenção para identificar as cabeças de atenção importantes, enquanto outras podem ser podadas com degradação de desempenho marginal. Além disso, extraímos as dependências mais salientes em cada camada para construir uma árvore de atribuição, que revela as interações hierárquicas dentro do Transformer. Finalmente, mostramos que os resultados da atribuição podem ser usados como padrões adversariais para implementar ataques não direcionados contra o BERT.
Hao et al. (Terça,) estudaram essa questão.
Synapse has enriched 2 closely related papers on similar clinical questions. Consider them for comparative context: