May 31, 2024Open Access

PlaceFormer : Reconnaissance visuelle de lieux basée sur un transformateur utilisant une sélection et fusion de patchs à multi-échelles

Key Points

Key points are not available for this paper at this time.

Abstract

La reconnaissance visuelle de lieux est une tâche difficile dans le domaine de la vision par ordinateur, ainsi que dans la robotique et les véhicules autonomes, qui vise à identifier une localisation ou un lieu à partir d'entrées visuelles. Les méthodes contemporaines de reconnaissance visuelle de lieux emploient des réseaux de neurones convolutifs et utilisent chaque région de l'image pour la tâche de reconnaissance de lieu. Cependant, la présence d'éléments dynamiques et distrayants dans l'image peut affecter l'efficacité du processus de reconnaissance de lieu. Par conséquent, il est pertinent de se concentrer sur les régions de l'image pertinentes pour la tâche afin d'améliorer la reconnaissance. Dans cet article, nous présentons PlaceFormer, une nouvelle approche basée sur un transformateur pour la reconnaissance visuelle de lieux. PlaceFormer utilise des tokens de patchs du transformateur pour créer des descripteurs d'image globaux, qui sont ensuite utilisés pour la récupération d'images. Pour reclasser les images récupérées, PlaceFormer fusionne les tokens de patchs du transformateur pour former des patchs à plusieurs échelles. En utilisant le mécanisme d'auto-attention du transformateur, il sélectionne des patchs qui correspondent à des zones pertinentes pour la tâche dans une image. Ces patchs sélectionnés subissent une vérification géométrique, générant des scores de similarité à travers différentes tailles de patchs. Par la suite, les scores spatiaux de chaque taille de patch sont fusionnés pour produire un score de similarité final. Ce score est ensuite utilisé pour reclasser les images initialement récupérées en utilisant des descripteurs d'images globaux. Des expériences approfondies sur des ensembles de données de référence montrent que PlaceFormer surpasse plusieurs méthodes à la pointe de la technologie en termes de précision et d'efficacité computationnelle, nécessitant moins de temps et de mémoire.

Read Full Paperexternally

Demander à l'IA

Bookmark

View Full Paper