Résumé Les véhicules autonomes et les robots fonctionnent dans un environnement dynamique, qui comprend des rues urbaines complexes, des obstacles dynamiques et des environnements de détection complexes. Cela rend la tâche de perception plus difficile. Un seul type de capteur ne peut pas répondre aux besoins de détection de cible. La fusion de capteurs multimodaux, qui combine les modalités LiDAR et caméra, fournit des informations sémantiques en 2D et géométriques en 3D complémentaires. La performance de la fusion de capteurs multimodaux dépend de manière critique d'une calibration extrinsèque précise entre les capteurs. Nous proposons CMTNet, une nouvelle architecture Transformer croisée pour l'estimation robuste des paramètres extrinsèques. La méthode utilise des cartes de profondeur comme représentation unifiée des images et des nuages de points LiDAR. Nous utilisons le réseau ResNet-18 pour extraire des caractéristiques de profondeur relative et sémantiques à partir de la carte de profondeur monoculaire. À partir de la carte de profondeur du nuage de points, nous extrayons des caractéristiques géométriques 3D précises. Ensuite, la couche de corrélation fusionne les deux caractéristiques. Enfin, le transformeur estime des paramètres de calibration précis basés sur des caractéristiques multimodales. Nous avons évalué notre méthode sur le dataset brut KITTI, et elle a surpassé d'autres méthodes. De plus, des expériences approfondies évaluant le modèle sur l'odométrie KITTI ont démontré que notre méthode présentait une bonne capacité de généralisation.
Sun et al. (Ven.) ont étudié cette question.