Key points are not available for this paper at this time.
La prise de conscience situationnelle est essentielle pour comprendre et raisonner sur des scènes 3D dans des agents d'IA incarnée. Cependant, les ensembles de données et les benchmarks existants pour la compréhension située sont limités en modalité de données, diversité, échelle et portée des tâches. Pour remédier à ces limitations, nous proposons le Question Réponse Située Multi-modale (MSQA), un ensemble de données de raisonnement situé multi-modal à grande échelle, collecté de manière évolutive en utilisant des graphes de scènes 3D et des modèles de vision-langage (VLMs) à travers une gamme diversifiée de scènes 3D du monde réel. MSQA comprend 251K paires de questions-réponses situées à travers 9 catégories de questions distinctes, couvrant des scénarios complexes au sein de scènes 3D. Nous introduisons une nouvelle configuration d'entrée multi-modale imbriquée dans notre benchmark pour fournir du texte, des images et des nuages de points pour la description de la situation et des questions, résolvant l'ambiguïté dans la convention de modalité unique précédente (par exemple, texte). De plus, nous développons le benchmark de Navigation au Prochain Étape Située Multi-modale (MSNN) pour évaluer le raisonnement situé des modèles pour la navigation. Des évaluations complètes sur MSQA et MSNN mettent en évidence les limitations des modèles de vision-langage existants et soulignent l'importance de gérer les entrées multi-modales imbriquées et la modélisation des situations. Des expériences sur l'échelle des données et le transfert inter-domaines démontrent en outre l'efficacité d'utiliser MSQA comme ensemble de données de pré-entraînement pour développer des modèles de raisonnement situé plus puissants.
Linghu et al. (Mar,) ont étudié cette question.