What question did this study set out to answer?

L'objectif est d'optimiser l'extraction de caractéristiques multi-échelles et la modélisation du contexte global dans les transformateurs de vision tout en réduisant la complexité computationnelle.

February 12, 2026Open Access

CGA-ViT : Attention Additive Guidée par Canal pour une Reconnaissance Visuelle Efficace

Key Points

L'objectif est d'optimiser l'extraction de caractéristiques multi-échelles et la modélisation du contexte global dans les transformateurs de vision tout en réduisant la complexité computationnelle.
Développé le mécanisme d'attention additive guidée par canal (CGA) pour des interactions sémantiques à long terme.
Mis en œuvre l'intégration de caractéristiques dilatées multi-échelles (MDFE) pour une meilleure capture des caractéristiques.
Adopté une structure hiérarchique combinant des interactions locales-globales dans les couches peu profondes avec une attention efficace dans les couches profondes.
Évalué la performance sur ImageNet-1K, en comparant avec des modèles existants comme Swin-T et ConvNeXt-T.
CGA-ViT a atteint 84,0% de précision Top-1 avec seulement 4,7 GFLOPs.
A dépassé Swin-T (81,3%) et ConvNeXt-T (82,1%) de 2,7 et 1,9 points de pourcentage respectivement.
MDFE et CGA ont contribué à 65,0% des gains de performance, avec des bénéfices supplémentaires provenant de la supervision au niveau des tokens.

Abstract

Les transformateurs de vision (ViTs) excellent dans la modélisation du contexte global avec attention automatique. Cependant, l'attention automatique standard entraîne une complexité computationnelle quadratique, ce qui restreint son utilisation pratique dans des tâches à haute résolution ou sensibles à la latence. Les méthodes existantes atteignent une complexité linéaire grâce à des contraintes de fenêtre locale ou des approximations additives. Cependant, elles compromettent souvent la modélisation des dépendances à long terme. Pour remédier à ce problème, nous proposons le transformateur de vision à attention additive guidée par canal (CGA-ViT), qui réalise une optimisation synergique de l'extraction de caractéristiques multi-échelles et de la modélisation efficace du contexte global. Tout d'abord, nous proposons l'intégration de caractéristiques dilatées multi-échelles (MDFE). En concevant un échantillonnage multi-échelles et une intégration spatiale des caractéristiques, nous pouvons élargir le champ réceptif et capturer des caractéristiques de manière fine simplement en ajustant le taux de dilatation dans les premières étapes ; deuxièmement, nous concevons une attention additive guidée par canal (CGA), modulant dynamiquement les vecteurs clés en utilisant des descripteurs dérivés des requêtes, permettant des interactions sémantiques à long terme tout en maintenant une croissance de complexité linéaire. Nous adoptons une structure hiérarchique, et dans les couches peu profondes, nous utilisons CGA pour effectuer des interactions locales-globales et utilisons une attention additive efficace dans les couches profondes pour l'intégration globale. Les évaluations sur ImageNet-1K montrent que CGA-ViT atteint 84,0% de précision Top-1 avec 4,7 GFLOPs, dépassant Swin-T (81,3%) et ConvNeXt-T (82,1%) de 2,7 et 1,9 points de pourcentage respectivement sous des coûts computationnels comparables. Les expériences d'ablation vérifient MDFE et CGA, qui contribuent ensemble à 65,0% des gains de performance, le reste provenant de la supervision au niveau des tokens. Dans l'ensemble, CGA-ViT équilibre efficacement le compromis intrinsèque entre l'efficacité et la capacité de modélisation globale, améliore significativement la performance de reconnaissance visuelle sans surcharge computationnelle supplémentaire et fournit une solution efficace pour la conception de ViT léger.

Demander à l'IA

Bookmark

View Full Paper