Presentamos GeoGrid-Bench, un banco de pruebas diseñado para evaluar la capacidad de los modelos de base para entender datos geo-espaciales en la estructura de cuadrícula. Los conjuntos de datos geo-espaciales presentan desafíos distintos debido a sus valores numéricos densos, fuertes dependencias espaciales y temporales, y representaciones multimodales únicas que incluyen datos tabulares, mapas de calor y visualizaciones geográficas. Para evaluar cómo los modelos de base pueden apoyar la investigación científica en este dominio, GeoGrid-Bench incluye datos del mundo real a gran escala que cubren 16 variables climáticas en 150 ubicaciones y períodos de tiempo extendidos. El banco de pruebas incluye aproximadamente 3,200 pares de preguntas y respuestas, generados sistemáticamente de 8 plantillas curadas por expertos en el dominio para reflejar tareas prácticas encontradas por científicos humanos. Estas van desde consultas básicas en una sola ubicación y tiempo hasta comparaciones espaciotemporales complejas entre regiones y períodos. Nuestra evaluación revela que los modelos de lenguaje-visual tienen el mejor rendimiento en general, y proporcionamos un análisis detallado de las fortalezas y limitaciones de diferentes modelos de base en diferentes tareas geo-espaciales. Este banco de pruebas ofrece una visión más clara de cómo los modelos de base pueden aplicarse efectivamente al análisis de datos geo-espaciales y usarse para apoyar la investigación científica.
Jiang et al. (Jue,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: