La segmentación de escenas 3D de vocabulario abierto sirve como una capacidad fundamental de la percepción humana en visión por computadora, ya que permite a los sistemas reconocer y segmentar objetos arbitrarios en entornos complejos. Sin embargo, los enfoques existentes a menudo tienen dificultades para generalizar a categorías no vistas y carecen de la capacidad de explotar conjuntamente la estructura geométrica y la información semántica. En este artículo, presentamos OV3DSeg-VGGT, un marco novedoso que construye un modelo de segmentación de escenas 3D combinando priors geométricos destilados del transformador visual preentrenado con conocimiento semántico. Nuestro método aprovecha la segmentación 2D temporalmente consistente y las incrustaciones multimodales de CLIP para construir representaciones robustas de instancias en diferentes vistas. Al ajustar finamente el transformador de geometría visual con un objetivo de aprendizaje contrastivo e introducir un proyector de destilación guiado por CLIP, alineamos las características geométricas con los priors semánticos, permitiendo la segmentación con una fuerte generalización a nuevas categorías. Experimentos extensivos muestran que OV3DSeg-VGGT supera las variables de referencia existentes de última generación y logra la generalización en la segmentación 3D de vocabulario abierto.
Zhou et al. (Sun,) estudiaron esta cuestión.