August 15, 2025

CMTNet : Un réseau basé sur Transformer pour la calibration croisée LiDAR-Caméra

Key Points

CMTNet améliore la précision de la calibration extrinsèque dans la fusion de capteurs multimodaux, renforçant la détection des cibles.
Le modèle a surpassé les méthodes existantes sur le dataset brut KITTI, indiquant un avancement significatif dans l'intégration des capteurs.
En utilisant une architecture de transformeur, l'approche fusionne efficacement les caractéristiques de profondeur et sémantiques des données LiDAR et caméra.
La validation réussie sur l'odométrie KITTI suggère une forte capacité de généralisation pour diverses applications dans le monde réel.

Abstract

Résumé Les véhicules autonomes et les robots fonctionnent dans un environnement dynamique, qui comprend des rues urbaines complexes, des obstacles dynamiques et des environnements de détection complexes. Cela rend la tâche de perception plus difficile. Un seul type de capteur ne peut pas répondre aux besoins de détection de cible. La fusion de capteurs multimodaux, qui combine les modalités LiDAR et caméra, fournit des informations sémantiques en 2D et géométriques en 3D complémentaires. La performance de la fusion de capteurs multimodaux dépend de manière critique d'une calibration extrinsèque précise entre les capteurs. Nous proposons CMTNet, une nouvelle architecture Transformer croisée pour l'estimation robuste des paramètres extrinsèques. La méthode utilise des cartes de profondeur comme représentation unifiée des images et des nuages de points LiDAR. Nous utilisons le réseau ResNet-18 pour extraire des caractéristiques de profondeur relative et sémantiques à partir de la carte de profondeur monoculaire. À partir de la carte de profondeur du nuage de points, nous extrayons des caractéristiques géométriques 3D précises. Ensuite, la couche de corrélation fusionne les deux caractéristiques. Enfin, le transformeur estime des paramètres de calibration précis basés sur des caractéristiques multimodales. Nous avons évalué notre méthode sur le dataset brut KITTI, et elle a surpassé d'autres méthodes. De plus, des expériences approfondies évaluant le modèle sur l'odométrie KITTI ont démontré que notre méthode présentait une bonne capacité de généralisation.

Bookmark

CMTNet : Un réseau basé sur Transformer pour la calibration croisée LiDAR-Caméra

Key Points

Abstract

Cite This Study