Los puntos clave no están disponibles para este artículo en este momento.
Entender los límites del lenguaje es un prerrequisito para que los Modelos de Lenguaje Grandes (LLMs) actúen como teorías del lenguaje natural. El rendimiento de los LLM en algunas tareas de lenguaje presenta tanto diferencias cuantitativas como cualitativas en comparación con el de los humanos; sin embargo, aún queda por determinar si tales diferencias son susceptibles al tamaño del modelo. Este trabajo investiga el papel crítico del escalado del modelo, determinando si los aumentos de tamaño compensan tales diferencias entre humanos y modelos. Probamos tres LLM de diferentes familias (Bard, 137 mil millones de parámetros; ChatGPT-3.5, 175 mil millones; ChatGPT-4, 1.5 billones) en una tarea de juicio gramatical que presenta anáfora, inserciones centradas, comparativos y polaridad negativa. Se recogen N=1,200 juicios y se evalúan por precisión, estabilidad y mejoras en la precisión tras la presentación repetida de un aviso. Los resultados del LLM de mejor rendimiento, ChatGPT-4, se comparan con los resultados de n=80 humanos sobre los mismos estímulos. Encontramos que el aumento del tamaño del modelo puede llevar a un mejor rendimiento, pero los LLM aún no son sensibles a la (in)gramaticalidad como lo son los humanos. Parece posible, pero poco probable, que el escalado por sí solo pueda solucionar este problema. Interpretamos estos resultados comparando el aprendizaje del lenguaje in vivo e in silico, identificando tres diferencias críticas en cuanto a (i) el tipo de evidencia, (ii) la pobreza del estímulo, y (iii) la ocurrencia de alucinaciones semánticas debido a referencias lingüísticas impenetrables.
Dentella et al. (Tue,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: