La détection d'objets 3D à vocabulaire ouvert (OV-3DDet) concerne la détection d'objets issus d'une liste arbitraire de catégories nouvelles dans des scènes 3D, ce qui reste un problème très difficile. Dans ce travail, nous proposons CoDAv2, un cadre unifié conçu pour aborder de manière innovante à la fois la localisation et la classification d'objets 3D nouveaux, sous la condition de catégories de base limitées. Pour la localisation, la stratégie proposée de découverte d'objets nouveaux 3D (3D-NOD) utilise les géométries 3D et les priorités sémantiques 2D à vocabulaire ouvert pour découvrir des pseudo-étiquettes pour les objets nouveaux durant l'entraînement. 3D-NOD est en outre étendue avec une stratégie d'enrichissement qui enrichit significativement la distribution des objets nouveaux dans les scènes d'entraînement, améliorant ainsi la capacité du modèle à localiser davantage d'objets nouveaux. 3D-NOD avec enrichissement est appelé 3D-NODE. Pour la classification, le module d'alignement cross-modal basé sur la découverte (DCMA) aligne les caractéristiques des nuages de points 3D et des modalités 2D/textuelles, employant des alignements à la fois agnostiques et spécifiques aux classes, qui sont raffinés de manière itérative pour gérer le vocabulaire d'objets en expansion. De plus, la guidance par boîtes 2D améliore la précision de classification face aux bruits complexes de fond, ce que l'on nomme Box-DCMA. Une évaluation extensive démontre la supériorité de CoDAv2. CoDAv2 dépasse largement la meilleure méthode existante (APNovel de 9,17 contre 3,61 sur SUN-RGBD et 9,12 contre 3,74 sur ScanNetv2). Le code source et les modèles pré-entraînés sont disponibles sur la page du projet GitHub.
Cao et al. (Sun,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: