What question did this study set out to answer?

Diese Forschung zielt darauf ab, einen Rahmen für Roboteragenten zu entwickeln, der effektives Szenenverständnis in Haushaltsumgebungen unterstützt.

May 9, 2026

Relationserweiterte 3D-Szenengraphen mit Vision-Sprache-Verankerung für Haushaltsumgebungen

Key Points

Diese Forschung zielt darauf ab, einen Rahmen für Roboteragenten zu entwickeln, der effektives Szenenverständnis in Haushaltsumgebungen unterstützt.
Entwicklung eines relationserweiterten 3D-Szenengraph-Rahmens unter Verwendung schlüsselbildbasierter Vision-Sprache-Argumentation.
Nutzung von RGB-D-Erfassung und segmentierungsbasierter Objekterkennung zur Erweiterung semantischer Relationen.
Durchführung von Bewertungen in drei Innenraum-Szenen zur Bewertung der Wirksamkeit von Knotenbenennung, Kantengenauigkeit und Instruktionsverankerung.
Erzielung einer Knotenbenennungsgenauigkeit von 87,9 %.
Berichterstattung einer Kantengenauigkeit von 84,5 %.
Demonstration der Instruktionsverankerungsleistung von 83,3 % in dynamischen Umgebungen.

Abstract

Roboteragenten in häuslichen Umgebungen benötigen Szenendarstellungen, die sowohl semantisch aussagekräftig als auch an dynamische Aufgaben anpassbar sind. Wir stellen einen relationserweiterten, offenen 3D-Szenengraph-Rahmen vor, der hierarchische Struktur mit schlüsselbildbasierter Vision-Sprache-Argumentation kombiniert. Mithilfe von RGB-D-Erfassung und segmentierungsbasierter Objekterkennung erweitert das System semantische Relationen über VLMs und wendet Anomalie-Filterung zur Verbesserung der Konsistenz an. Dies ermöglicht feinkörnige semantische Konnektivität und unterstützt das Verständnis dynamischer Aufgaben in Open-World-Szenarien. Bewertungen in drei Innenraum-Szenen zeigen starke Leistungen bei der Knotenbenennung (87,9 %), Kantengenauigkeit (84,5 %) und Instruktionsverankerung (83,3 %). Ergänzende Experimente mit Objektumlagerungen demonstrieren zudem konsistente Aktualisierungen bei dynamischen Veränderungen und bestätigen die Effektivität des Rahmens für robustes Aufgabenverständnis auf roboterinteraktioneller Ebene in Open-World-Umgebungen.

Bookmark

Relationserweiterte 3D-Szenengraphen mit Vision-Sprache-Verankerung für Haushaltsumgebungen

Key Points

Abstract

Cite This Study

Also Consider

Also Consider