Los puntos clave no están disponibles para este artículo en este momento.
El éxito de modelos de aprendizaje contrastivo como CLIP, conocido por alinear pares de imagen-texto en 2D, ha inspirado el desarrollo de alineación en tripletes para Modelos de Nubes de Puntos 3D Grandes (3D-PCM). Ejemplos como ULIP integran imágenes, texto y nubes de puntos en un espacio semántico unificado. Sin embargo, a pesar de mostrar capacidades impresionantes en cero disparos, el 3D-PCM congelado aún queda corto en comparación con métodos ajustados, especialmente cuando los conjuntos de datos 3D posteriores son significativamente diferentes de los datos anteriores. Para abordar esto, proponemos un método de Adaptación 3D Sin Entrenamiento y Eficiente en Datos llamado PointTFA que ajusta las salidas de ULIP con muestras representativas. PointTFA comprende la Caché de Memoria Representativa (RMC) para seleccionar un conjunto de soporte representativo, Refactorización de Consulta de Nubes (CQR) para reconstruir una nube de consulta utilizando el conjunto de soporte, y Adaptador 3D Sin Entrenamiento (3D-TFA) para inferir categorías de consulta del conjunto de soporte. Una ventaja clave de PointTFA es que no introduce parámetros de entrenamiento adicionales, y sin embargo, supera al ULIP congelado básico, acercándose estrechamente a los métodos de entrenamiento finos en pocos disparos en tareas de clasificación de nubes posteriores como ModelNet10 & 40 y ScanObjectNN. El código está disponible en: https://github.com/CaoChong-git/PointTFA.
Wu et al. (Vie,) estudiaron esta cuestión.