Los puntos clave no están disponibles para este artículo en este momento.
Los modelos de lenguaje más precisos de hoy se entrenan con órdenes de magnitud más datos lingüísticos de los que reciben los aprendices humanos del lenguaje, pero sin supervisión de otras modalidades sensoriales que desempeñan un papel crucial en el aprendizaje humano. ¿Podemos hacer que las representaciones y predicciones de los modelos de lenguaje sean más precisas (y más parecidas a las humanas) con una supervisión más ecológicamente plausible? Este documento describe el Enraizamiento Lexico-Contrastivo (LexiContrastive Grounding, LCG), un procedimiento de aprendizaje del lenguaje fundamentado que aprovecha la supervisión visual para mejorar las representaciones textuales. El Enraizamiento Lexico-Contrastivo combina una estrategia de predicción del siguiente token con un objetivo de enraizamiento visual contrastivo, enfocándose en las representaciones de capas tempranas que codifican información léxica. A través de múltiples puntos de referencia de aprendizaje de palabras y comprensión de oraciones, el Enraizamiento Lexico-Contrastivo no solo supera a los modelos estándar de solo lenguaje en eficiencia de aprendizaje, sino que también mejora los procedimientos de aprendizaje de visión y lenguaje, incluidos CLIP, GIT, Flamingo y Vokenización. Además, el Enraizamiento Lexico-Contrastivo mejora la perplexidad en alrededor del 5% en múltiples tareas de modelado del lenguaje. Este trabajo subraya el potencial de incorporar el enraizamiento visual en los modelos de lenguaje, alineándose más estrechamente con la naturaleza multimodal de la adquisición del lenguaje humano.
Zhuang et al. (Jue,) estudiaron esta cuestión.