What question did this study set out to answer?

Esta investigación explora la efectividad de los grandes modelos multimodales para generar leyendas para figuras científicas.

March 14, 2026Open Access

¿Los grandes modelos multimodales resuelven la generación de leyendas para figuras científicas? Lecciones aprendidas del desafío SciCap 2023

Puntos clave

Esta investigación explora la efectividad de los grandes modelos multimodales para generar leyendas para figuras científicas.
Visión general del primer Desafío SciCap
Evaluación del rendimiento de los modelos en el conjunto de datos SciCap
Análisis de las preferencias de los editores profesionales
Los editores profesionales prefirieron las leyendas de GPT-4V sobre todos los demás modelos
Los modelos mostraron un rendimiento variable en la generación de leyendas a través de diversos tipos de figuras

Resumen

Resumen Desde el lanzamiento del conjunto de datos SciCap en 2021, la comunidad de investigación ha avanzado significativamente en la generación de leyendas para figuras científicas en artículos académicos. En 2023, tuvo lugar el primer Desafío SciCap, invitando a equipos globales a utilizar un conjunto de datos SciCap ampliado para desarrollar modelos de leyendas para diversos tipos de figuras en varios campos académicos. Al mismo tiempo, los modelos de generación de texto avanzaron rápidamente, con muchos poderosos modelos multimodales grandes preentrenados (LMMs) que emergieron y mostraron capacidades impresionantes en diversas tareas de visión y lenguaje. Este documento presenta una visión general del primer Desafío SciCap y detalla el rendimiento de varios modelos sobre sus datos, capturando un instantáneo del estado del campo. Encontramos que los editores profesionales preferían abrumadoramente las leyendas de las figuras generadas por GPT-4V sobre las de todos los demás modelos e incluso sobre las leyendas originales escritas por los autores. Tras este hallazgo clave, realizamos análisis detallados para responder a la siguiente pregunta: ¿Han resuelto los LMMs avanzados la tarea de generar leyendas para figuras científicas?

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo