Key points are not available for this paper at this time.
Genauigkeit und zuverlässige Wahrnehmungssysteme sind entscheidend für autonomes Fahren und Robotik. Um dies zu erreichen, ist die 3D-Objekterkennung mit Multi-Sensoren erforderlich. Bestehende 3D-Detektoren haben die Genauigkeit erheblich verbessert, indem sie ein zweistufiges Paradigma übernommen haben, das sich ausschließlich auf LiDAR-Punktwolken zur Verfeinerung der 3D-Vorschläge stützt. Allerdings macht die Sparseität der Punktwolken, insbesondere für weit entfernte Punkte, es dem LiDAR-Only-Refinement-Modul schwer, Objekte genau zu erkennen und zu lokalisieren. Um dieses Problem zu lösen, schlagen wir einen neuartigen mehrdimensionalen zweistufigen Ansatz namens FusionRCNN vor. Dieser Ansatz fusioniert effektiv und effizient Punktwolken und Kamerabilder in den Regions of Interest (RoI). FusionRCNN integriert adaptive beiden spärlichen Geometrieinformationen von LiDAR und dichten Texturinformationen von der Kamera in einem einheitlichen Aufmerksamkeitsmechanismus. Genauer gesagt nutzt FusionRCNN zunächst RoIPooling, um ein Bildset mit einheitlicher Größe zu erhalten, und erhält das Punktset, indem es rohe Punkte innerhalb der Vorschläge im RoI-Extraktionsschritt abtastet. Anschließend nutzt es eine intra-modale Selbstaufmerksamkeit, um die domänenspezifischen Merkmale zu verbessern, gefolgt von einer gut gestalteten Kreuzaufmerksamkeit, um die Informationen aus zwei Modalitäten zu fusionieren. FusionRCNN ist grundsätzlich Plug-and-Play und unterstützt verschiedene einstufige Methoden mit nahezu keinen architektonischen Änderungen. Umfassende Experimente an den KITTI- und Waymo-Benchmarks zeigen, dass unsere Methode die Leistungen beliebter Detektoren erheblich steigert. Bemerkenswerterweise verbessert FusionRCNN die starke SECOND-Baseline um 6,14% mAP auf Waymo und übertrifft konkurrierende zweistufige Ansätze.
Xu et al. (Thu,) haben diese Frage untersucht.