Key points are not available for this paper at this time.
Dans la reconnaissance visuelle des lieux, l’identification et la correspondance précises des images de localisations sous des conditions environnementales et des points de vue variés demeurent un défi significatif. Dans cet article, nous introduisons une nouvelle technique, appelée Bag-of-Queries (BoQ), qui apprend un ensemble de requêtes globales conçues pour capturer des attributs universels spécifiques à chaque lieu. Contrairement aux méthodes existantes qui emploient l'auto-attention et génèrent les requêtes directement à partir des caractéristiques d'entrée, BoQ utilise des requêtes globales apprenables distinctes, qui explorent les caractéristiques d'entrée par le biais de l'attention croisée, garantissant une agrégation d'informations cohérente. De plus, notre technique fournit un mécanisme d'attention interprétable et s'intègre avec les architectures CNN et Vision Transformer. La performance de BoQ est démontrée à travers des expériences extensives sur 14 références à grande échelle. Elle surpasse systématiquement les techniques actuelles à la pointe de la technologie, y compris NetVLAD, MixVPR et EigenPlaces. De plus, en tant que technique de recherche globale (à une étape), BoQ dépasse les méthodes de récupération en deux étapes, telles que Patch-NetVLAD, TransVPR et R2Former, tout en étant des ordres de grandeur plus rapide et efficace. Le code et les poids du modèle sont disponibles publiquement sur https://github.com/amaralibey/Bag-of-Queries.
Ali-bey et al. (Sun,) ont étudié cette question.