What question did this study set out to answer?

La investigación tiene como objetivo mejorar la segmentación de escenas 3D integrando priors geométricos y conocimiento semántico para mejorar la generalización a nuevas categorías.

March 30, 2026Open Access

OV3DSeg-VGGT: Segmentación 3D de vocabulario abierto con Transformadores Basados en Geometría Visual

Puntos clave

La investigación tiene como objetivo mejorar la segmentación de escenas 3D integrando priors geométricos y conocimiento semántico para mejorar la generalización a nuevas categorías.
Desarrolló el marco OV3DSeg-VGGT combinando priors geométricos de transformadores visuales y conocimiento semántico.
Utilizó CLIP para la segmentación 2D temporalmente consistente y representaciones de instancias en diferentes vistas.
Empleó aprendizaje contrastivo para ajustar finamente el transformador de geometría visual para una mejor alineación de características.
OV3DSeg-VGGT superó los métodos de última generación existentes en precisión de segmentación 3D.
Demostró una fuerte generalización a categorías nuevas no vistas durante el entrenamiento.

Resumen

La segmentación de escenas 3D de vocabulario abierto sirve como una capacidad fundamental de la percepción humana en visión por computadora, ya que permite a los sistemas reconocer y segmentar objetos arbitrarios en entornos complejos. Sin embargo, los enfoques existentes a menudo tienen dificultades para generalizar a categorías no vistas y carecen de la capacidad de explotar conjuntamente la estructura geométrica y la información semántica. En este artículo, presentamos OV3DSeg-VGGT, un marco novedoso que construye un modelo de segmentación de escenas 3D combinando priors geométricos destilados del transformador visual preentrenado con conocimiento semántico. Nuestro método aprovecha la segmentación 2D temporalmente consistente y las incrustaciones multimodales de CLIP para construir representaciones robustas de instancias en diferentes vistas. Al ajustar finamente el transformador de geometría visual con un objetivo de aprendizaje contrastivo e introducir un proyector de destilación guiado por CLIP, alineamos las características geométricas con los priors semánticos, permitiendo la segmentación con una fuerte generalización a nuevas categorías. Experimentos extensivos muestran que OV3DSeg-VGGT supera las variables de referencia existentes de última generación y logra la generalización en la segmentación 3D de vocabulario abierto.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo