Transformadores de Visão (ViTs) surgiram como modelos de ponta para várias tarefas de visão recentemente. No entanto, seus altos custos de computação permanecem assustadores para dispositivos com recursos limitados. Para abordar isso, os pesquisadores se dedicaram a comprimir informações redundantes em ViTs para aceleração. No entanto, as abordagens existentes geralmente eliminam esparsamente tokens de imagem redundantes por meio de poda de tokens ou removem brutalmente canais através da poda de canais, levando a um equilíbrio sub-ótimo entre desempenho do modelo e velocidade de inferência. Além disso, têm dificuldades ao transferir modelos comprimidos para tarefas de visão a jusante que requerem a estrutura espacial das imagens, como segmentação semântica. Para enfrentar esses problemas, propomos o CAIT, um método de compressão conjunta para ViTs que alcança uma combinação harmoniosa de alta precisão, velocidade de inferência rápida e transferibilidade favorável para tarefas a jusante. Especificamente, introduzimos uma estratégia de mesclagem assimétrica de tokens (ATME) para integrar efetivamente tokens vizinhos. Isso pode comprimir com sucesso informações de tokens redundantes enquanto preserva a estrutura espacial das imagens. Além disso, projetamos uma estratégia de poda dinâmica de canais consistente (CDCP) para podar dinamicamente canais não importantes em ViTs. Graças ao CDCP, canais insignificantes em módulos de autoatenção de múltiplas cabeças de ViTs podem ser podados uniformemente, melhorando significativamente a compressão do modelo. Experimentos extensivos em múltiplos conjuntos de dados de referência mostram que nosso método proposto pode alcançar desempenho de ponta em vários ViTs.
Wang et al. (Quarta,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: