What type of study is this?

This is a Experimental Study study.

October 15, 2025Open Access

Poda Simétrica Baseada em Blocos e Fusão para Transformadores de Visão Eficientes

Key Points

O BSPF-ViT alcança um aumento de 1,3% na precisão de classificação do ImageNet em modelos DeiT-T e 2,0% em modelos DeiT-S.
A poda sistemática baseada em interações de tokens protege a precisão enquanto reduz a sobrecarga computacional em 50%.
A matriz de atenção simétrica permite a poda eficiente de tokens, otimizando operações em vários modelos de visão.
Cálculos mais rápidos levaram a um aumento de 40% nas operações, melhorando a eficácia geral sem perda de precisão.

Abstract

O Transformador de Visão (ViT) obteve resultados impressionantes em várias tarefas de visão, mas seu alto custo computacional limita as aplicações práticas. Métodos recentes têm procurado reduzir a complexidade O(n²) do ViT podando tokens não importantes. No entanto, essas técnicas muitas vezes sacrificam a precisão ao podar independentemente tokens de consulta (Q) e chave (K), levando à degradação do desempenho devido a interações de tokens negligenciadas. Para abordar essa limitação, apresentamos uma nova Poda Simétrica Baseada em Blocos e Fusão para um ViT eficiente (BSPF-ViT) que otimiza a poda de tokens Q/K em conjunto. Ao contrário de métodos anteriores que consideram apenas uma única direção, nossa abordagem avalia cada token e seus vizinhos para decidir quais tokens reter levando em conta a interação dos tokens. Os tokens retidos são comprimidos através de um passo de fusão de similaridade, preservando informações-chave enquanto reduz os custos computacionais. Os pesos compartilhados dos tokens Q/K criam uma matriz de atenção simétrica, permitindo a poda apenas da parte triangular superior para acelerar o processo. O BSPF-ViT supera consistentemente os métodos de ViT de última geração em todos os níveis de poda, aumentando a precisão de classificação do ImageNet em 1,3% nos modelos DeiT-T e 2,0% nos modelos DeiT-S, enquanto reduz a sobrecarga computacional em 50%. Ele alcança um aumento de 40% na velocidade com precisão melhorada em vários ViTs.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper