What question did this study set out to answer?

Esta investigación tiene como objetivo evaluar las habilidades de razonamiento de las redes neuronales profundas utilizando un conjunto de datos único diseñado para niños.

December 20, 2022Open Access

¿Son las redes neuronales profundas más INTELIGENTES que los estudiantes de segundo grado?

Puntos clave

Esta investigación tiene como objetivo evaluar las habilidades de razonamiento de las redes neuronales profundas utilizando un conjunto de datos único diseñado para niños.
Se desarrolló el conjunto de datos SMART-101 con 101 acertijos visuo-lingüísticos para niños de 6 a 8 años.
Se implementó un modelo de meta-aprendizaje de visión y lenguaje para evaluar el rendimiento en el conjunto de datos.
Se generaron programáticamente nuevas instancias de acertijos manteniendo los algoritmos de solución.
Las redes neuronales profundas mostraron un rendimiento razonable en un entorno supervisado pero no lograron generalizar de manera efectiva, alcanzando una precisión aleatoria.
A pesar de mostrar cierto razonamiento en instancias específicas, ChatGPT y otros modelos de lenguaje grandes proporcionaron respuestas incorrectas con frecuencia.

Resumen

En tiempos recientes, hemos sido testigos de un número creciente de aplicaciones de redes neuronales profundas para resolver tareas que requieren habilidades cognitivas superiores, por ejemplo, jugar Go, generar arte, ChatGPT, etc. Este dramático progreso plantea la pregunta: ¿qué tan generalizables son las redes neuronales para resolver problemas que exigen habilidades amplias? Para responder a esta pregunta, proponemos SMART: una Tarea de Razonamiento Algorítmico Multimodal Simple y el conjunto de datos asociado SMART-101, para evaluar las habilidades de abstracción, deducción y generalización de las redes neuronales en la resolución de rompecabezas visuo-lingüísticos diseñados específicamente para niños de 6 a 8 años. Nuestro conjunto de datos consta de 101 rompecabezas únicos; cada rompecabezas comprende una imagen y una pregunta, y su solución requiere una combinación de varias habilidades elementales, incluyendo aritmética, álgebra y razonamiento espacial, entre otras. Para escalar nuestro conjunto de datos hacia el entrenamiento de redes neuronales profundas, generamos programáticamente nuevas instancias para cada rompecabezas, mientras mantenemos su algoritmo de solución. Para evaluar el rendimiento en SMART-101, proponemos un modelo de meta-aprendizaje de visión y lenguaje utilizando variadas arquitecturas de vanguardia. Nuestros experimentos revelan que, si bien los modelos profundos potentes ofrecen un rendimiento razonable en rompecabezas en un entorno supervisado, no son mejores que la precisión aleatoria cuando se analizan para generalización. También evaluamos el reciente ChatGPT y otros grandes modelos de lenguaje en un subconjunto de SMART-101 y descubrimos que, aunque estos modelos muestran habilidades de razonamiento convincentes, las respuestas son a menudo incorrectas.

Me gusta

Guardar

Ver artículo completo