O Transformador de Visão (ViT) obteve resultados impressionantes em várias tarefas de visão, mas seu alto custo computacional limita as aplicações práticas. Métodos recentes têm procurado reduzir a complexidade O(n²) do ViT podando tokens não importantes. No entanto, essas técnicas muitas vezes sacrificam a precisão ao podar independentemente tokens de consulta (Q) e chave (K), levando à degradação do desempenho devido a interações de tokens negligenciadas. Para abordar essa limitação, apresentamos uma nova Poda Simétrica Baseada em Blocos e Fusão para um ViT eficiente (BSPF-ViT) que otimiza a poda de tokens Q/K em conjunto. Ao contrário de métodos anteriores que consideram apenas uma única direção, nossa abordagem avalia cada token e seus vizinhos para decidir quais tokens reter levando em conta a interação dos tokens. Os tokens retidos são comprimidos através de um passo de fusão de similaridade, preservando informações-chave enquanto reduz os custos computacionais. Os pesos compartilhados dos tokens Q/K criam uma matriz de atenção simétrica, permitindo a poda apenas da parte triangular superior para acelerar o processo. O BSPF-ViT supera consistentemente os métodos de ViT de última geração em todos os níveis de poda, aumentando a precisão de classificação do ImageNet em 1,3% nos modelos DeiT-T e 2,0% nos modelos DeiT-S, enquanto reduz a sobrecarga computacional em 50%. Ele alcança um aumento de 40% na velocidade com precisão melhorada em vários ViTs.
Hsieh et al. (Quarta-feira,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: