March 14, 2024Open Access

Visuelle Grundlagenmodelle verbessern die domänenübergreifende unüberwachte Anpassung für 3D-semantische Segmentierung

Key Points

Key points are not available for this paper at this time.

Abstract

Die unüberwachte Domänenanpassung (UDA) ist entscheidend, um die Arbeitslast bei der Kennzeichnung von 3D-Punktwolken-Daten zu verringern und das Fehlen von Labels in einem neu definierten Bereich zu mildern. Verschiedene Methoden, Bilder zu nutzen, um die Leistung der domänenübergreifenden 3D-Segmentierung zu verbessern, sind in letzter Zeit entstanden. Die Pseudolabels, die aus Modellen generiert werden, die auf der Quell-Domäne trainiert wurden und zusätzliche überwachende Signale für die ungesehene Domäne bieten, sind jedoch unzureichend, wenn sie für die 3D-Segmentierung verwendet werden, aufgrund ihrer inhärenten Geräuschhaftigkeit, die die Genauigkeit von neuronalen Netzen einschränkt. Mit dem Aufkommen von 2D-visuellen Grundlagenmodellen (VFMs) und ihrem reichen Wissensvorsprung schlagen wir eine neuartige Pipeline namens VFMSeg vor, um das Framework zur dominierenden unüberwachten Domänenanpassung weiter zu verbessern, indem wir diese Modelle nutzen. In dieser Arbeit untersuchen wir, wie wir die durch VFMs erlernten Wissensvorsprünge nutzen können, um genauere Labels für ungelabelte Zielbereiche zu erzeugen und die Gesamtleistung zu verbessern. Wir nutzen zunächst ein multimodales VFM, das auf großen Bild-Text-Paaren vortrainiert ist, um überwachte Labels (VFM-PL) für Bilder und Punktwolken aus der Ziel-Domäne bereitzustellen. Dann wird ein weiteres VFM, das auf feinkörnigen 2D-Masken trainiert wurde, verwendet, um die Generierung semantisch augmentierter Bilder und Punktwolken zu leiten, um die Leistung von neuronalen Netzen zu verbessern, die die Daten aus Quell- und Ziel-Domänen wie Sichtkonen (FrustumMixing) mischen. Schließlich verbinden wir die klassenweise Vorhersage über Modalitäten, um genauere Annotationen für ungelabelte Zielbereiche zu produzieren. Unsere Methode wird an verschiedenen autonomen Fahrdaten-Sätzen evaluiert und die Ergebnisse zeigen eine signifikante Verbesserung bei der 3D-Segmentierungsaufgabe.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper