June 2, 2024Open Access

Découverte collaborative d'objets nouveaux et alignement cross-modal guidé par boîtes pour la détection d'objets 3D à vocabulaire ouvert

Key Points

CoDAv2 améliore significativement la détection d'objets nouveaux, surpassant la meilleure méthode précédente par une marge substantielle.
La méthode s'améliore grâce à la découverte d'objets nouveaux 3D, utilisant les géométries 3D et l'information sémantique 2D pour créer des pseudo-étiquettes.
L'emploi de l'alignement cross-modal basé sur la découverte permet un alignement robuste des caractéristiques issues des modalités 3D et 2D, améliorant la précision face à la complexité des sources de données. 3D-NODE révèle une approche raffinée qui enrichit les objets d'entraînement, renforçant la performance de localisation avec la guidance par boîtes 2D dans des scènes difficiles. 3D-NODE soutient une meilleure compréhension de l'expansion du vocabulaire des objets.

Abstract

La détection d'objets 3D à vocabulaire ouvert (OV-3DDet) concerne la détection d'objets issus d'une liste arbitraire de catégories nouvelles dans des scènes 3D, ce qui reste un problème très difficile. Dans ce travail, nous proposons CoDAv2, un cadre unifié conçu pour aborder de manière innovante à la fois la localisation et la classification d'objets 3D nouveaux, sous la condition de catégories de base limitées. Pour la localisation, la stratégie proposée de découverte d'objets nouveaux 3D (3D-NOD) utilise les géométries 3D et les priorités sémantiques 2D à vocabulaire ouvert pour découvrir des pseudo-étiquettes pour les objets nouveaux durant l'entraînement. 3D-NOD est en outre étendue avec une stratégie d'enrichissement qui enrichit significativement la distribution des objets nouveaux dans les scènes d'entraînement, améliorant ainsi la capacité du modèle à localiser davantage d'objets nouveaux. 3D-NOD avec enrichissement est appelé 3D-NODE. Pour la classification, le module d'alignement cross-modal basé sur la découverte (DCMA) aligne les caractéristiques des nuages de points 3D et des modalités 2D/textuelles, employant des alignements à la fois agnostiques et spécifiques aux classes, qui sont raffinés de manière itérative pour gérer le vocabulaire d'objets en expansion. De plus, la guidance par boîtes 2D améliore la précision de classification face aux bruits complexes de fond, ce que l'on nomme Box-DCMA. Une évaluation extensive démontre la supériorité de CoDAv2. CoDAv2 dépasse largement la meilleure méthode existante (APNovel de 9,17 contre 3,61 sur SUN-RGBD et 9,12 contre 3,74 sur ScanNetv2). Le code source et les modèles pré-entraînés sont disponibles sur la page du projet GitHub.

Read Full Paperexternally

Demander à l'IA

Bookmark

View Full Paper