June 1, 2023

Convolution Sparse Virtuelle pour la Détection d'Objets 3D Multimodaux

Key Points

Key points are not available for this paper at this time.

Abstract

Récemment, la détection d'objets 3D basée sur des pseudo-points virtuels qui fusionne de manière transparente les images RGB et les données LiDAR par complétion de profondeur a suscité un grand intérêt. Cependant, les points virtuels générés à partir d'une image sont très denses, entraînant une énorme quantité de calcul redondant lors de la détection. Par ailleurs, les bruits apportés par une complétion de profondeur inexacte dégradent significativement la précision de détection. Cet article propose un backbone rapide mais efficace, appelé Vir-ConvNet, basé sur un nouvel opérateur VirConv (Convolution Sparse Virtuelle), pour la détection d'objets 3D basée sur des points virtuels. VirConv se compose de deux conceptions clés : (1) StVD (Rejet de Voxels Stochastiques) et (2) NRConv (Convolution Résistante au Bruit de Sous-variantes). StVD atténue le problème de calcul en rejetant de grandes quantités de voxels redondants à proximité. NRConv aborde le problème du bruit en encodant les caractéristiques des voxels à la fois dans l'espace de l'image 2D et dans l'espace LiDAR 3D. En intégrant VirConv, nous développons d'abord un pipeline efficace VirConv-L basé sur un design de fusion précoce. Ensuite, nous construisons un pipeline de haute précision Vir Conv-T basé sur un schéma de raffinement transformé. Enfin, nous développons un pipeline semi-supervisé VirConv-S basé sur un cadre de pseudo-étiquettes. Sur le tableau des leaders du test de détection 3D de voitures KITTI, notre VirConv-L obtient 85% AP avec une vitesse d'exécution rapide de 56 ms. Nos VirConv-T et VirConv-S atteignent une haute précision de 86,3% et 87,2% AP, et se classent actuellement 2ème et 1er respectivement. Le code est disponible à https://github.com/hailanyi/VirConv.

Demander à l'IA

Bookmark