May 24, 2024Open Access

3D Unüberwachtes Lernen durch Destillierung von 2D Open-Vocabulary Segmentierungsmodellen für autonomes Fahren

Key Points

Key points are not available for this paper at this time.

Abstract

Die Kennzeichnung von Punktwolken-Daten wird als zeitaufwändige und kostspielige Aufgabe im autonomen Fahren betrachtet, während unüberwachtes Lernen dies vermeiden kann, indem es Punktwolken-Darstellungen aus nicht annotierten Daten lernt. In diesem Papier schlagen wir UOV vor, ein neuartiges 3D-unüberwachtes Framework, das durch 2D Open-Vocabulary Segmentierungsmodelle unterstützt wird. Es besteht aus zwei Phasen: In der ersten Phase integrieren wir innovativ hochqualitative Text- und Bildmerkmale von 2D Open-Vocabulary-Modellen und schlagen das Tri-Modal contrastive Pre-training (TMP) vor. In der zweiten Phase wird die räumliche Zuordnung zwischen Punktwolken und Bildern genutzt, um Pseudo-Labels zu generieren, was die intermodale Wissensdestillation ermöglicht. Außerdem führen wir die Approximate Flat Interaction (AFI) ein, um das Rauschen während der Ausrichtung und Verwirrung der Labels zu adressieren. Um die Überlegenheit von UOV zu validieren, werden umfangreiche Experimente an mehreren verwandten Datensätzen durchgeführt. Wir erzielten einen Rekordwert von 47,73 % mIoU bei der annotierungsfreien Punktwolken-Segmentierungsaufgabe in nuScenes und übertrafen das vorherige beste Modell um 10,70 % mIoU. Gleichzeitig erreichte die Leistung des Feintunings mit 1 % Daten auf nuScenes und SemanticKITTI bemerkenswerte 51,75 % mIoU bzw. 48,14 % mIoU und übertraf alle vorherigen vortrainierten Modelle.

3D Unüberwachtes Lernen durch Destillierung von 2D Open-Vocabulary Segmentierungsmodellen für autonomes Fahren

Key Points

Abstract

Cite This Study

Also Consider

Also Consider