What question did this study set out to answer?

El objetivo es desarrollar un marco que mejore la comprensión de la información táctil utilizando el lenguaje.

March 23, 2026Open Access

CLTP: Preentrenamiento Lingüístico-Táctil Contrastivo para la comprensión de la geometría de contacto 3D

Puntos clave

El objetivo es desarrollar un marco que mejore la comprensión de la información táctil utilizando el lenguaje.
Se creó un conjunto de datos de más de 50,000 pares de nube de puntos táctiles 3D y lenguaje.
Se alinearon los datos táctiles con descripciones en lenguaje natural centrándose en los estados de contacto.
Se evaluó el rendimiento en tres tareas: clasificación en cero disparos, clasificación de estados de contacto e interacción con modelos de lenguaje grande.
CLTP superó a los métodos tradicionales en las tres tareas de evaluación.
Se mostró una mejora significativa en el reconocimiento de estados de contacto multidimensionales.
Se proporcionó un enfoque novedoso para integrar representaciones táctiles y lingüísticas.

Resumen

Los avances recientes en la integración de la percepción táctil con modelos de visión-lenguaje (VLMs) han demostrado un potencial notable para la percepción multimodal robótica. Sin embargo, las descripciones táctiles existentes siguen limitadas a atributos superficiales como la textura, descuidando estados de contacto críticos esenciales para la manipulación robótica. Para cerrar esta brecha, proponemos CLTP, un marco de preentrenamiento lingüístico-táctil intuitivo y efectivo que alinea nubes de puntos táctiles 3D con lenguaje natural en diversos escenarios de contacto, permitiendo así una comprensión del lenguaje táctil que tiene en cuenta los estados de contacto para tareas de manipulación ricas en contacto. Primero recolectamos un nuevo conjunto de datos de más de 50,000 pares de nube de puntos táctiles 3D y lenguaje, donde las descripciones capturan explícitamente estados de contacto multidimensionales (por ejemplo, ubicación de contacto, forma y fuerza) desde la perspectiva del sensor táctil. CLTP aprovecha un espacio de características de visión-lenguaje prealineado y congelado para conectar modalidades textuales y táctiles de manera holística. Los experimentos validan su superioridad en tres tareas posteriores: clasificación 3D en cero disparos, clasificación de estados de contacto y la interacción con modelos de lenguaje grande (LLM) táctil 3D. Hasta donde sabemos, este es el primer estudio en alinear representaciones táctiles y lingüísticas desde la perspectiva de los estados de contacto para tareas de manipulación, proporcionando un gran potencial para el aprendizaje de modelos de acción-lenguaje-táctil. El código y los conjuntos de datos están disponibles en https://sites.google.com/view/cltp/.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo