Key points are not available for this paper at this time.
Le Transformateur de Vision (ViT) est l'une des architectures de réseaux neuronaux appliquées au traitement d'images basé sur le Transformateur. ViT a atteint des performances de pointe dans diverses tâches de vision par ordinateur. Cette étude tente d'améliorer la couche d'entrée de ViT en modifiant la manière d'embedder la position. Nous proposons un ViT avec embedding pré-positionnel qui ajoute des constantes à chaque pixel avant de diviser les images d'entrée en morceaux. Cette méthode suppose les caractéristiques d'image suivantes : asymétrie verticale, symétrie horizontale et distribution de caractéristiques similaires dans une image s'étendant concentriquement depuis le centre de l'image. Les résultats expérimentaux montrent que la méthode proposée atteint la même précision de reconnaissance d'image que la méthode conventionnelle avec embedding de position tout en réduisant le nombre de paramètres d'entraînement.
Eguchi et al. (Thu,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: