May 2, 2024

Transformateur de vision avec embedding pré-positionnel

Key Points

Key points are not available for this paper at this time.

Abstract

Le Transformateur de Vision (ViT) est l'une des architectures de réseaux neuronaux appliquées au traitement d'images basé sur le Transformateur. ViT a atteint des performances de pointe dans diverses tâches de vision par ordinateur. Cette étude tente d'améliorer la couche d'entrée de ViT en modifiant la manière d'embedder la position. Nous proposons un ViT avec embedding pré-positionnel qui ajoute des constantes à chaque pixel avant de diviser les images d'entrée en morceaux. Cette méthode suppose les caractéristiques d'image suivantes : asymétrie verticale, symétrie horizontale et distribution de caractéristiques similaires dans une image s'étendant concentriquement depuis le centre de l'image. Les résultats expérimentaux montrent que la méthode proposée atteint la même précision de reconnaissance d'image que la méthode conventionnelle avec embedding de position tout en réduisant le nombre de paramètres d'entraînement.

Demander à l'IA

Bookmark