Key points are not available for this paper at this time.
La navigation vision-langage (VLN) vise à permettre à des agents incarnés de naviguer dans des environnements réalistes en utilisant des instructions en langage naturel. Étant donné la rareté des données d’entraînement spécifiques au domaine et la grande diversité des entrées d’images et de langage, la généralisation des agents VLN à des environnements non vus reste un défi. Des méthodes récentes explorent le préentraînement pour améliorer la généralisation ; cependant, l'utilisation de jeux de données génériques d'image-légende ou d'environnements VLN existants à petite échelle est sous-optimale et entraîne des améliorations limitées. Dans ce travail, nous introduisons BnB 1, un ensemble de données VLN diversifié et à grande échelle. Nous collectons d'abord des paires image-légende (IC) à partir de centaines de milliers d'annonces sur des marchés de location en ligne. En utilisant des paires IC, nous proposons ensuite des stratégies automatiques pour générer des millions de paires d'instructions de chemin VLN (PI). Nous proposons également une perte de mélange qui améliore l'apprentissage de l'ordre temporel à l'intérieur des paires PI. Nous utilisons BnB pour préentraîner notre modèle Airbert 2 qui peut être adapté à des settings discriminatifs et génératifs et montrons qu'il surpasse l'état de l'art pour la navigation Room-to-Room (R2R) et les benchmarks Remote Referring Expression (REVERIE). De plus, notre préentraînement en domaine augmente significativement la performance sur une évaluation VLN difficile en few-shot, où nous entraînons le modèle uniquement sur des instructions VLN de quelques maisons.
Guhur et al. (Fri,) ont étudié cette question.