October 4, 2025

CAIT: Compressão Tripla em Direção à Alta Precisão, Inferência Rápida e Transferibilidade Favorável para ViTs

Key Points

CAIT alcança alta precisão e velocidade de inferência rápida em transformadores de visão, melhorando o desempenho em diversas tarefas.
Experimentos demonstram o desempenho superior do CAIT em vários benchmarks, melhorando a compressão sem sacrificar a qualidade.
O uso de mesclagem assimétrica de tokens e poda dinâmica de canais permite uma redução efetiva de dados redundantes enquanto preserva a estrutura.
O método de compressão conjunta suporta aplicações versáteis em tarefas de visão, destacando seu potencial para uso mais amplo.

Abstract

Transformadores de Visão (ViTs) surgiram como modelos de ponta para várias tarefas de visão recentemente. No entanto, seus altos custos de computação permanecem assustadores para dispositivos com recursos limitados. Para abordar isso, os pesquisadores se dedicaram a comprimir informações redundantes em ViTs para aceleração. No entanto, as abordagens existentes geralmente eliminam esparsamente tokens de imagem redundantes por meio de poda de tokens ou removem brutalmente canais através da poda de canais, levando a um equilíbrio sub-ótimo entre desempenho do modelo e velocidade de inferência. Além disso, têm dificuldades ao transferir modelos comprimidos para tarefas de visão a jusante que requerem a estrutura espacial das imagens, como segmentação semântica. Para enfrentar esses problemas, propomos o CAIT, um método de compressão conjunta para ViTs que alcança uma combinação harmoniosa de alta precisão, velocidade de inferência rápida e transferibilidade favorável para tarefas a jusante. Especificamente, introduzimos uma estratégia de mesclagem assimétrica de tokens (ATME) para integrar efetivamente tokens vizinhos. Isso pode comprimir com sucesso informações de tokens redundantes enquanto preserva a estrutura espacial das imagens. Além disso, projetamos uma estratégia de poda dinâmica de canais consistente (CDCP) para podar dinamicamente canais não importantes em ViTs. Graças ao CDCP, canais insignificantes em módulos de autoatenção de múltiplas cabeças de ViTs podem ser podados uniformemente, melhorando significativamente a compressão do modelo. Experimentos extensivos em múltiplos conjuntos de dados de referência mostram que nosso método proposto pode alcançar desempenho de ponta em vários ViTs.

Perguntar à IA

Bookmark