March 3, 2026Open Access

Vereinheitlichtes promptfähiges panoptisches Mapping mit dynamischer Beschriftung unter Verwendung von Fundamentmodellen

Key Points

UPPM zeigt überlegene Leistung in der Kartenrekonstruktionsgenauigkeit und der Qualität der panoptischen Segmentierung, was auf seine Effektivität im Verständnis von Szenen in offenen Welten hinweist.
Die Methode verwendet dynamische Deskriptoren innerhalb einer multi-resolution multi-TSDF Karte, was die Konsistenz der Beschriftungen und die geometrische Genauigkeit verbessert.
Ablationsstudien heben die Beiträge spezifischer Komponenten, wie benutzerdefinierte nicht-maximale Unterdrückung und vereinheitlichte Semantik, zur Gesamtleistung hervor.
UPPM erhält die Interpretierbarkeit von offenem Vokabular, während es starke geometrische Treue und Segmentierungsgenauigkeit gewährleistet, was vielversprechend für zukünftige Anwendungen in der Robotik ist.

Abstract

Panoptische Karten ermöglichen es Robotern, sowohl über Geometrie als auch über Semantik zu raisonnieren. Allerdings produzieren Modelle mit offenem Vokabular wiederholt eng verwandte Beschriftungen, die panoptische Entitäten spalten und die volumetrische Konsistenz beeinträchtigen. Das vorgeschlagene UPPM verbessert das Verständnis von Szenen in offenen Welten, indem es Fundamentmodelle nutzt, um einen panoptischen dynamischen Deskriptor einzuführen, der offene Vokabeln mit vereinheitlichter Kategorienstruktur und geometrischen Größenprioren versöhnt. Die Fusion solcher dynamischen Deskriptoren erfolgt innerhalb einer multi-resolution multi-TSDF Karte unter Verwendung von sprachgeführten offenen Vokabular-panoptischen Segmentierungen und semantischer Abrufung, was zu einer persistierenden und promptfähigen panoptischen Karte ohne zusätzliche Modelltraining führt. Basierend auf unseren Evaluierungsversuchen zeigt UPPM die beste Gesamtleistung in Bezug auf die Genauigkeit der Kartenrekonstruktion und die Qualität der panoptischen Segmentierung. Die Ablationsstudie untersucht den Beitrag jeder Komponente von UPPM (benutzerdefinierte NMS, Unschärfe-Filterung und vereinheitlichte Semantik) zur Gesamtleistung des Systems. Folglich bewahrt UPPM die Interpretierbarkeit von offenem Vokabular, während es starke geometrische und panoptische Genauigkeit liefert.

Bookmark

View Full Paper

Bookmark

View Full Paper

Vereinheitlichtes promptfähiges panoptisches Mapping mit dynamischer Beschriftung unter Verwendung von Fundamentmodellen

Key Points

Abstract

Cite This Study