En tiempos recientes, hemos sido testigos de un número creciente de aplicaciones de redes neuronales profundas para resolver tareas que requieren habilidades cognitivas superiores, por ejemplo, jugar Go, generar arte, ChatGPT, etc. Este dramático progreso plantea la pregunta: ¿qué tan generalizables son las redes neuronales para resolver problemas que exigen habilidades amplias? Para responder a esta pregunta, proponemos SMART: una Tarea de Razonamiento Algorítmico Multimodal Simple y el conjunto de datos asociado SMART-101, para evaluar las habilidades de abstracción, deducción y generalización de las redes neuronales en la resolución de rompecabezas visuo-lingüísticos diseñados específicamente para niños de 6 a 8 años. Nuestro conjunto de datos consta de 101 rompecabezas únicos; cada rompecabezas comprende una imagen y una pregunta, y su solución requiere una combinación de varias habilidades elementales, incluyendo aritmética, álgebra y razonamiento espacial, entre otras. Para escalar nuestro conjunto de datos hacia el entrenamiento de redes neuronales profundas, generamos programáticamente nuevas instancias para cada rompecabezas, mientras mantenemos su algoritmo de solución. Para evaluar el rendimiento en SMART-101, proponemos un modelo de meta-aprendizaje de visión y lenguaje utilizando variadas arquitecturas de vanguardia. Nuestros experimentos revelan que, si bien los modelos profundos potentes ofrecen un rendimiento razonable en rompecabezas en un entorno supervisado, no son mejores que la precisión aleatoria cuando se analizan para generalización. También evaluamos el reciente ChatGPT y otros grandes modelos de lenguaje en un subconjunto de SMART-101 y descubrimos que, aunque estos modelos muestran habilidades de razonamiento convincentes, las respuestas son a menudo incorrectas.
Cherian et al. (mar.) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: