Los puntos clave no están disponibles para este artículo en este momento.
La llegada de modelos de lenguaje grande como ChatGPT, Gemini, y otros ha subrayado la importancia de evaluar sus diversas capacidades, que van desde la comprensión del lenguaje natural hasta la generación de código. Sin embargo, su rendimiento en tareas espaciales no ha sido evaluado de manera integral. Este estudio aborda esta brecha mediante la introducción de un nuevo conjunto de datos de evaluación espacial multitarea, diseñado para explorar sistemáticamente y comparar el rendimiento de varios modelos avanzados en tareas espaciales. El conjunto de datos abarca doce tipos de tareas distintas, incluyendo comprensión espacial y planificación de rutas, cada una con respuestas verificadas y precisas. Evaluamos múltiples modelos, incluyendo gpt-3.5-turbo de OpenAI, gpt-4o, y glm-4 de ZhipuAI, a través de un enfoque de prueba en dos fases. Inicialmente, realizamos pruebas sin entrenamiento previo, seguidas de la categorización del conjunto de datos por dificultad y pruebas de ajuste de instrucciones. Los resultados indican que gpt-4o logró la mayor precisión general en la primera fase, con un promedio del 71.3%. Aunque moonshot-v1-8k tuvo un rendimiento ligeramente inferior en general, superó a gpt-4o en tareas de reconocimiento de nombres de lugares. El estudio también destaca el impacto de las estrategias de instrucciones en el rendimiento del modelo en tareas específicas. Por ejemplo, la estrategia Chain-of-Thought (COT) aumentó la precisión de gpt-4o en la planificación de rutas del 12.4% al 87.5%, mientras que una estrategia de un solo intento mejoró la precisión de moonshot-v1-8k en tareas de mapeo del 10.1% al 76.3%.
Xu et al. (Mon,) estudiaron esta cuestión.