Los puntos clave no están disponibles para este artículo en este momento.
El Corpus de Razonamiento Abstracto (ARC) es una prueba de razonamiento analógico visual diseñada para humanos y máquinas (Chollet, 2019). Comparamos el rendimiento de humanos y modelos de lenguaje grande (LLM) en un nuevo conjunto de elementos de ARC amigables para niños. Los resultados muestran que tanto niños como adultos superan a la mayoría de los LLM en estas tareas. El análisis de errores reveló una estrategia de solución de "fallback" similar en LLM y niños pequeños, donde parte de la analogía se copia simplemente. Además, encontramos otros dos tipos de errores, uno basado en la aparente comprensión de conceptos clave (por ejemplo, Dentro-Fuera) y el otro basado en combinaciones simples de matrices de entrada de analogía. En general, los errores de "concepto" eran más comunes en humanos, y los errores de "matriz" eran más comunes en LLM. Este estudio arroja nueva luz sobre la capacidad de razonamiento de los LLM y hasta qué punto podemos usar los análisis de errores y comparaciones con el desarrollo humano para entender cómo los LLM resuelven analogías visuales.
Opiełka et al. (Mié,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: