In der sprachgeführten visuellen Navigation lokalisieren Agenten Zielobjekte in unbekannten Umgebungen mithilfe natürlicher Sprachinstruktionen. Für eine zuverlässige Navigation in unbekannten Szenen sollten Agenten über starke Wahrnehmungs-, Planungs- und Vorhersagefähigkeiten verfügen. Darüber hinaus können Agenten, wenn sie während der langfristigen Navigation zuvor erkundete Bereiche erneut besuchen, irrelevante und redundante historische Wahrnehmungen beibehalten, was zu suboptimalen Ergebnissen führt. In dieser Arbeit stellen wir RoboTron-Nav vor, ein einheitliches Framework, das Wahrnehmungs-, Planungs- und Vorhersagefähigkeiten durch Multitasking-Zusammenarbeiten bei Navigations- und verkörperten Frage-Antwort-Aufgaben integriert, wodurch die Navigationsleistung verbessert wird. Darüber hinaus nutzt RoboTron-Nav eine adaptive, 3D-bewusste Geschichtenauswahlstrategie, um historische Beobachtungen effektiv und effizient zu nutzen. Durch die Nutzung eines großen Sprachmodells versteht RoboTron-Nav diverse Befehle und komplexe visuelle Szenen, was zu angemessenen Navigationsaktionen führt. RoboTron-Nav erreicht eine Erfolgsquote von 81,1 % bei der Objektnavigationsaufgabe auf dem CHORES-S Benchmark und setzt damit einen neuen Maßstab für die Leistung. Projektseite: https://yvfengzhong.github.io/RoboTron-Nav
Zhong et al. (Mon.) untersuchten diese Frage.