April 25, 2024Open Access

TinyChart: Compreensão Eficiente de Gráficos com Mesclagem de Tokens Visuais e Aprendizado de Programa de Pensamentos

Key Points

Key points are not available for this paper at this time.

Abstract

Gráficos são importantes para apresentar e explicar relações complexas de dados. Recentemente, modelos de linguagem multimodal de grande porte (MLLMs) mostraram capacidades notáveis em várias tarefas de compreensão de gráficos. No entanto, o tamanho desses modelos em termos de parâmetros e requisitos computacionais limita seu uso em ambientes com recursos restritos. Neste artigo, apresentamos o TinyChart, um MLLM eficiente para compreensão de gráficos com apenas 3B de parâmetros. O TinyChart supera dois desafios chave na compreensão eficiente de gráficos: (1) reduz a carga de aprendizado de cálculos numéricos através de uma estratégia de aprendizado de Programa de Pensamentos (PoT), que treina o modelo para gerar programas Python para cálculos numéricos, e (2) reduz longas sequências de características visuais produzidas pelo transformador de visão para imagens de alta resolução através de um módulo de Mesclagem de Tokens Visuais, que mescla gradualmente os tokens visuais mais semelhantes. Experimentos extensivos demonstram que nosso TinyChart de 3B alcança desempenho SOTA em uma variedade de benchmarks de compreensão de gráficos, incluindo ChartQA, Chart-to-Text, Chart-to-Table, OpenCQA e ChartX. Ele supera vários MLLMs de compreensão de gráficos com até 13B de parâmetros, como ChartLlama e ChartAst, e o MLLM de propósito geral de código fechado GPT-4V no ChartQA. Também demonstra sua eficiência superior com maior capacidade durante a inferência devido a uma escala de modelo menor e codificação visual mais eficiente. Nosso código e modelo estão disponíveis em https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/TinyChart.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper