What type of study is this?

This is a Quantitative Study study.

October 2, 2025Open Access

Mem4Nav : Amélioration de la navigation Vision-et-Langage dans des environnements urbains avec un système de mémoire long-court hiérarchique cognitif spatial

Key Points

Mem4Nav améliore significativement les taux d'achèvement des tâches dans des scénarios de navigation urbaine, avec des gains de 7-13 points de pourcentage.
Le système utilise un modèle de mémoire long-court hiérarchique, gérant efficacement le contexte dynamique et la récupération de données historiques.
L'évaluation à travers plusieurs backbones de navigation a démontré des améliorations substantielles en matière d'achèvement des tâches et de raisonnement spatial.
L'intégration des octrees et des graphiques sémantiques est essentielle pour une utilisation efficace de la mémoire, comme le confirment les études d'ablation.

Abstract

La navigation Vision-et-Langage (VLN) dans des environnements urbains à grande échelle nécessite des agents incarnés pour ancrer des instructions linguistiques dans des scènes complexes et rappeler des expériences pertinentes sur de longues périodes. Les pipelines modulaire précédents offrent une interprétabilité mais manquent de mémoire unifiée, tandis que les agents LLM (M) de bout en bout excellent à fusionner vision et langage tout en restant contraints par des fenêtres de contexte fixes et un raisonnement spatial implicite. Nous introduisons Mem4Nav, un système de mémoire long-court hiérarchique cognitif spatial qui peut augmenter n'importe quel backbone VLN. Mem4Nav fusionne un octree sparse pour l'indexation voxel fine avec un graphique de topologie sémantique pour la connectivité des points de repère à un niveau élevé, stockant les deux dans des jetons de mémoire entraînables intégrés via un Transformer réversible. La mémoire à long terme (LTM) compresse et conserve les observations historiques à la fois aux nœuds d'octree et de graphique, tandis que la mémoire à court terme (STM) met en cache des entrées multimodales récentes dans des coordonnées relatives pour une évitement d'obstacles en temps réel et une planification locale. À chaque étape, la récupération STM élague fortement le contexte dynamique, et, lorsque l'historique plus profond est nécessaire, les jetons LTM sont décodés sans perte pour reconstruire des représentations passées. Évalué sur Touchdown et Map2Seq à travers trois backbones (modulaire, LVM de pointe avec LLM basé sur prompt, et LVM de pointe avec MLLM à attention à pas), Mem4Nav génère des gains de 7-13 points de pourcentage en Achèvement des Tâches, une réduction suffisante de la SPD et une amélioration de >10 pp en nDTW. Les ablations confirment l'indispensabilité des modules de carte hiérarchique et de mémoire duale. Nos codes sont open-sourcés via https://github.com/tsinghua-fib-lab/Mem4Nav.

Read Full Paperexternally

Demander à l'IA

Bookmark

View Full Paper

Cite This Study

Li et al. (Mardi,) ont étudié cette question.

synapsesocial.com/papers/68de84bf5b556a9128e1be67 https://doi.org/https://doi.org/10.48550/arxiv.2506.19433

Demander à l'IA

Bookmark

View Full Paper