What type of study is this?

This is a Quantitative Study study.

October 16, 2025Open Access

RoboTron-Nav: Ein einheitliches Framework für verkörperte Navigation, das Wahrnehmung, Planung und Vorhersage integriert

Key Points

RoboTron-Nav erzielt 81,1 % Erfolg bei der Objektnavigationsaufgabe, was bedeutende Fortschritte in der verkörperten Navigation anzeigt.
Eine neue adaptive, 3D-bewusste Geschichtenauswahlstrategie verbessert die effektive Nutzung historischer Beobachtungen während der Navigation.
Multitasking bei Navigations- und Frage-Antwort-Aufgaben zeigt verbesserte Wahrnehmungs- und Planungsfähigkeiten.
Die Nutzung eines großen Sprachmodells ermöglicht es RoboTron-Nav, komplexe Befehle und visuelle Umgebungen zu verstehen.

Abstract

In der sprachgeführten visuellen Navigation lokalisieren Agenten Zielobjekte in unbekannten Umgebungen mithilfe natürlicher Sprachinstruktionen. Für eine zuverlässige Navigation in unbekannten Szenen sollten Agenten über starke Wahrnehmungs-, Planungs- und Vorhersagefähigkeiten verfügen. Darüber hinaus können Agenten, wenn sie während der langfristigen Navigation zuvor erkundete Bereiche erneut besuchen, irrelevante und redundante historische Wahrnehmungen beibehalten, was zu suboptimalen Ergebnissen führt. In dieser Arbeit stellen wir RoboTron-Nav vor, ein einheitliches Framework, das Wahrnehmungs-, Planungs- und Vorhersagefähigkeiten durch Multitasking-Zusammenarbeiten bei Navigations- und verkörperten Frage-Antwort-Aufgaben integriert, wodurch die Navigationsleistung verbessert wird. Darüber hinaus nutzt RoboTron-Nav eine adaptive, 3D-bewusste Geschichtenauswahlstrategie, um historische Beobachtungen effektiv und effizient zu nutzen. Durch die Nutzung eines großen Sprachmodells versteht RoboTron-Nav diverse Befehle und komplexe visuelle Szenen, was zu angemessenen Navigationsaktionen führt. RoboTron-Nav erreicht eine Erfolgsquote von 81,1 % bei der Objektnavigationsaufgabe auf dem CHORES-S Benchmark und setzt damit einen neuen Maßstab für die Leistung. Projektseite: https://yvfengzhong.github.io/RoboTron-Nav

RoboTron-Nav: Ein einheitliches Framework für verkörperte Navigation, das Wahrnehmung, Planung und Vorhersage integriert

Key Points

Abstract

Cite This Study