Key points are not available for this paper at this time.
Grandes modelos de visão-linguagem (LVLMs) se destacam em diversas tarefas envolvendo imagens concretas de cenas naturais. No entanto, sua capacidade de interpretar figuras abstratas, como formas geométricas e gráficos científicos, permanece limitada devido à escassez de conjuntos de dados de treinamento em domínios científicos. Para preencher essa lacuna, introduzimos o Multimodal ArXiv, que consiste no ArXivCap e ArXivQA, para melhorar a compreensão científica dos LVLMs. O ArXivCap é um conjunto de dados de figuras e legendas composto por 6,4 milhões de imagens e 3,9 milhões de legendas, provenientes de 572 mil artigos do ArXiv que abrangem vários domínios científicos. A partir do ArXivCap, introduzimos o ArXivQA, um conjunto de dados de perguntas e respostas gerado ao solicitar o GPT-4V com base em figuras científicas. O ArXivQA melhora significativamente as capacidades de raciocínio matemático dos LVLMs de código aberto, alcançando um aumento absoluto de 10,4% na precisão em um benchmark de raciocínio matemático multimodal. Além disso, empregando o ArXivCap, concebemos quatro tarefas de visão-para-texto para avaliação dos LVLMs. Os resultados da avaliação com LVLMs de última geração ressaltam a dificuldade deles com a semântica sutil de figuras acadêmicas, enquanto o treinamento específico do domínio gera ganhos de desempenho substanciais. Nossa análise de erros revela interpretações errôneas do contexto visual, erros de reconhecimento e a produção de legendas excessivamente simplificadas pelos atuais LVLMs, lançando luz sobre melhorias futuras.
Li et al. (Mon,) estudaram esta questão.