Les transformateurs de vision (ViTs) excellent dans la modélisation du contexte global avec attention automatique. Cependant, l'attention automatique standard entraîne une complexité computationnelle quadratique, ce qui restreint son utilisation pratique dans des tâches à haute résolution ou sensibles à la latence. Les méthodes existantes atteignent une complexité linéaire grâce à des contraintes de fenêtre locale ou des approximations additives. Cependant, elles compromettent souvent la modélisation des dépendances à long terme. Pour remédier à ce problème, nous proposons le transformateur de vision à attention additive guidée par canal (CGA-ViT), qui réalise une optimisation synergique de l'extraction de caractéristiques multi-échelles et de la modélisation efficace du contexte global. Tout d'abord, nous proposons l'intégration de caractéristiques dilatées multi-échelles (MDFE). En concevant un échantillonnage multi-échelles et une intégration spatiale des caractéristiques, nous pouvons élargir le champ réceptif et capturer des caractéristiques de manière fine simplement en ajustant le taux de dilatation dans les premières étapes ; deuxièmement, nous concevons une attention additive guidée par canal (CGA), modulant dynamiquement les vecteurs clés en utilisant des descripteurs dérivés des requêtes, permettant des interactions sémantiques à long terme tout en maintenant une croissance de complexité linéaire. Nous adoptons une structure hiérarchique, et dans les couches peu profondes, nous utilisons CGA pour effectuer des interactions locales-globales et utilisons une attention additive efficace dans les couches profondes pour l'intégration globale. Les évaluations sur ImageNet-1K montrent que CGA-ViT atteint 84,0% de précision Top-1 avec 4,7 GFLOPs, dépassant Swin-T (81,3%) et ConvNeXt-T (82,1%) de 2,7 et 1,9 points de pourcentage respectivement sous des coûts computationnels comparables. Les expériences d'ablation vérifient MDFE et CGA, qui contribuent ensemble à 65,0% des gains de performance, le reste provenant de la supervision au niveau des tokens. Dans l'ensemble, CGA-ViT équilibre efficacement le compromis intrinsèque entre l'efficacité et la capacité de modélisation globale, améliore significativement la performance de reconnaissance visuelle sans surcharge computationnelle supplémentaire et fournit une solution efficace pour la conception de ViT léger.
Zhao et al. (mar,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: