Key points are not available for this paper at this time.
La fusion et la segmentation d'images multimodales améliorent la compréhension des scènes dans la conduite autonome en intégrant des données provenant de divers capteurs. Cependant, les modèles actuels ont du mal à segmenter efficacement les éléments densément empaquetés dans de telles scènes, en raison de l'absence de caractéristiques de fusion complètes pouvant guider le réglage fin au milieu du processus et concentrer l'attention sur les zones pertinentes. Le Modèle Segment Anything (SAM) a émergé comme une méthode de segmentation transformative. Il fournit des incitations plus efficaces grâce à son encodeur d'incitations flexible, par rapport aux transformateurs manquant de contrôle affiné. Néanmoins, le SAM n'a pas été largement étudié dans le domaine de la fusion multimodale pour les images naturelles. Dans cet article, nous introduisons le SAM dans la segmentation d'images multimodales pour la première fois, en proposant un cadre novateur qui combine la Génération de Tokens d'Espace Latent (LSTG) et le Modulage d'Invite de Masque de Fusion (FMP) pour améliorer les capacités de fusion et de segmentation multimodales du SAM. Plus précisément, nous obtenons d'abord des caractéristiques d'espace latent des deux modalités grâce à la quantification vectorielle et les intégrons dans un module de fusion inter-domaines basé sur l'attention croisée pour établir des dépendances à long terme entre les modalités. Ensuite, nous utilisons ces caractéristiques de fusion complètes comme incitations pour guider une segmentation précise au niveau des pixels. D'importants expérimentations sur plusieurs ensembles de données publics montrent que la méthode proposée surpasse significativement le SAM et le SAM2 dans des scénarios de conduite autonome multimodale, atteignant au moins 3,9 % de mIoU de segmentation supérieur par rapport aux méthodes à la pointe de la technologie.
Li et al. (Sun) ont étudié cette question.