Roboteragenten in häuslichen Umgebungen benötigen Szenendarstellungen, die sowohl semantisch aussagekräftig als auch an dynamische Aufgaben anpassbar sind. Wir stellen einen relationserweiterten, offenen 3D-Szenengraph-Rahmen vor, der hierarchische Struktur mit schlüsselbildbasierter Vision-Sprache-Argumentation kombiniert. Mithilfe von RGB-D-Erfassung und segmentierungsbasierter Objekterkennung erweitert das System semantische Relationen über VLMs und wendet Anomalie-Filterung zur Verbesserung der Konsistenz an. Dies ermöglicht feinkörnige semantische Konnektivität und unterstützt das Verständnis dynamischer Aufgaben in Open-World-Szenarien. Bewertungen in drei Innenraum-Szenen zeigen starke Leistungen bei der Knotenbenennung (87,9 %), Kantengenauigkeit (84,5 %) und Instruktionsverankerung (83,3 %). Ergänzende Experimente mit Objektumlagerungen demonstrieren zudem konsistente Aktualisierungen bei dynamischen Veränderungen und bestätigen die Effektivität des Rahmens für robustes Aufgabenverständnis auf roboterinteraktioneller Ebene in Open-World-Umgebungen.
Lu et al. (Fri,) untersuchten diese Fragestellung.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: