Resumen Desde el lanzamiento del conjunto de datos SciCap en 2021, la comunidad de investigación ha avanzado significativamente en la generación de leyendas para figuras científicas en artículos académicos. En 2023, tuvo lugar el primer Desafío SciCap, invitando a equipos globales a utilizar un conjunto de datos SciCap ampliado para desarrollar modelos de leyendas para diversos tipos de figuras en varios campos académicos. Al mismo tiempo, los modelos de generación de texto avanzaron rápidamente, con muchos poderosos modelos multimodales grandes preentrenados (LMMs) que emergieron y mostraron capacidades impresionantes en diversas tareas de visión y lenguaje. Este documento presenta una visión general del primer Desafío SciCap y detalla el rendimiento de varios modelos sobre sus datos, capturando un instantáneo del estado del campo. Encontramos que los editores profesionales preferían abrumadoramente las leyendas de las figuras generadas por GPT-4V sobre las de todos los demás modelos e incluso sobre las leyendas originales escritas por los autores. Tras este hallazgo clave, realizamos análisis detallados para responder a la siguiente pregunta: ¿Han resuelto los LMMs avanzados la tarea de generar leyendas para figuras científicas?
Hsu et al. (Jue,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: