February 19, 2024Open Access

Open3DSG: Grafos de Escena 3D de Vocabulário Abierto a partir de Nubes de Puntos con Objetos Consultables y Relaciones de Conjunto Abierto

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los enfoques actuales para la predicción de grafos de escena 3D se basan en conjuntos de datos etiquetados para entrenar modelos para un conjunto fijo de clases de objetos conocidas y categorías de relaciones. Presentamos Open3DSG, un enfoque alternativo para aprender la predicción de grafos de escena 3D en un mundo abierto sin necesidad de datos de grafos de escena etiquetados. Co-incrustamos las características de una base de predicción de grafos de escena 3D con el espacio de características de poderosos modelos de fundamentos de lenguaje de visión 2D en un mundo abierto. Esto nos permite predecir grafos de escena 3D a partir de nubes de puntos 3D de manera cero-shot consultando clases de objetos de un vocabulario abierto y prediciendo las relaciones inter-objetos a partir de un LLM fundamentado con características de grafos de escena y clases de objetos consultadas como contexto. Open3DSG es el primer método de nube de puntos 3D que predice no solo clases de objetos explícitos de vocabulario abierto, sino también relaciones de conjunto abierto que no están limitadas a un conjunto de etiquetas predefinido, lo que hace posible expresar objetos y relaciones raras así como específicas en el grafo de escena 3D predicho. Nuestros experimentos muestran que Open3DSG es efectivo para predecir clases de objetos arbitrarias así como sus complejas relaciones inter-objetos que describen relaciones espaciales, de apoyo, semánticas y comparativas.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo