La navigation Vision-et-Langage (VLN) dans des environnements urbains à grande échelle nécessite des agents incarnés pour ancrer des instructions linguistiques dans des scènes complexes et rappeler des expériences pertinentes sur de longues périodes. Les pipelines modulaire précédents offrent une interprétabilité mais manquent de mémoire unifiée, tandis que les agents LLM (M) de bout en bout excellent à fusionner vision et langage tout en restant contraints par des fenêtres de contexte fixes et un raisonnement spatial implicite. Nous introduisons Mem4Nav, un système de mémoire long-court hiérarchique cognitif spatial qui peut augmenter n'importe quel backbone VLN. Mem4Nav fusionne un octree sparse pour l'indexation voxel fine avec un graphique de topologie sémantique pour la connectivité des points de repère à un niveau élevé, stockant les deux dans des jetons de mémoire entraînables intégrés via un Transformer réversible. La mémoire à long terme (LTM) compresse et conserve les observations historiques à la fois aux nœuds d'octree et de graphique, tandis que la mémoire à court terme (STM) met en cache des entrées multimodales récentes dans des coordonnées relatives pour une évitement d'obstacles en temps réel et une planification locale. À chaque étape, la récupération STM élague fortement le contexte dynamique, et, lorsque l'historique plus profond est nécessaire, les jetons LTM sont décodés sans perte pour reconstruire des représentations passées. Évalué sur Touchdown et Map2Seq à travers trois backbones (modulaire, LVM de pointe avec LLM basé sur prompt, et LVM de pointe avec MLLM à attention à pas), Mem4Nav génère des gains de 7-13 points de pourcentage en Achèvement des Tâches, une réduction suffisante de la SPD et une amélioration de >10 pp en nDTW. Les ablations confirment l'indispensabilité des modules de carte hiérarchique et de mémoire duale. Nos codes sont open-sourcés via https://github.com/tsinghua-fib-lab/Mem4Nav.
Li et al. (Mardi,) ont étudié cette question.