Los avances recientes en la integración de la percepción táctil con modelos de visión-lenguaje (VLMs) han demostrado un potencial notable para la percepción multimodal robótica. Sin embargo, las descripciones táctiles existentes siguen limitadas a atributos superficiales como la textura, descuidando estados de contacto críticos esenciales para la manipulación robótica. Para cerrar esta brecha, proponemos CLTP, un marco de preentrenamiento lingüístico-táctil intuitivo y efectivo que alinea nubes de puntos táctiles 3D con lenguaje natural en diversos escenarios de contacto, permitiendo así una comprensión del lenguaje táctil que tiene en cuenta los estados de contacto para tareas de manipulación ricas en contacto. Primero recolectamos un nuevo conjunto de datos de más de 50,000 pares de nube de puntos táctiles 3D y lenguaje, donde las descripciones capturan explícitamente estados de contacto multidimensionales (por ejemplo, ubicación de contacto, forma y fuerza) desde la perspectiva del sensor táctil. CLTP aprovecha un espacio de características de visión-lenguaje prealineado y congelado para conectar modalidades textuales y táctiles de manera holística. Los experimentos validan su superioridad en tres tareas posteriores: clasificación 3D en cero disparos, clasificación de estados de contacto y la interacción con modelos de lenguaje grande (LLM) táctil 3D. Hasta donde sabemos, este es el primer estudio en alinear representaciones táctiles y lingüísticas desde la perspectiva de los estados de contacto para tareas de manipulación, proporcionando un gran potencial para el aprendizaje de modelos de acción-lenguaje-táctil. El código y los conjuntos de datos están disponibles en https://sites.google.com/view/cltp/.
Ma et al. (Sun,) estudiaron esta cuestión.