Los puntos clave no están disponibles para este artículo en este momento.
¿Cómo podemos construir robots para tareas de navegación semántica en mundos abiertos, como buscar objetos objetivo en escenas novedosas? Aunque los modelos de base tienen el rico conocimiento y la generalización necesarios para estas tareas, se necesita una representación de escena adecuada para conectarlos en un sistema robótico completo. Abordamos esto con Gráficas de Escena Abiertas (OSGs), una representación topo-semántica que retiene y organiza información de escena de conjunto abierto para estos modelos, y tiene una estructura que se puede configurar para diferentes tipos de entornos. Integramos modelos de base y OSGs en el sistema OpenSearch para Navegación de Objetos con Objetivo en un Mundo Abierto, que es capaz de buscar objetos de conjunto abierto especificados en lenguaje natural, mientras generaliza cero a través de diversos entornos y encarnaciones. Nuestros OSGs mejoran el razonamiento con Modelos de Lenguaje Grandes (LLM), permitiendo una navegación de objeto-objetivo robusta que supera los enfoques existentes de LLM. A través de simulaciones y experimentos en el mundo real, validamos la generalización de OpenSearch a través de entornos variados, robots e instrucciones novedosas.
Loo et al. (Martes,) estudiaron esta cuestión.