Key points are not available for this paper at this time.
O rápido progresso dos Modelos Grandes Multimodais (MLLMs) demonstrou sua impressionante capacidade de enfrentar tarefas que misturam visão e linguagem. No entanto, a maioria dos modelos e benchmarks atuais atende a cenários com um escopo estreito de contextos visuais e textuais. Esses modelos geralmente falham quando enfrentam tarefas complexas de compreensão, que envolvem navegar através de uma infinidade de informações irrelevantes e potencialmente enganosas, tanto em forma de texto quanto de imagem. Para preencher essa lacuna, apresentamos uma nova tarefa, mais exigente, conhecida como Compreensão Intercalada de Imagem e Texto (IITC). Esta tarefa desafia os modelos a discernir e desconsiderar elementos supérfluos em imagens e textos para responder perguntas com precisão e seguir instruções complexas para localizar a imagem relevante. Em apoio a essa tarefa, desenvolvemos um novo conjunto de dados VEGA, adaptado para a tarefa IITC em conteúdo científico, e concebemos uma subtarefa, Associação de Imagem e Texto (ITA), para refinar habilidades de correlação entre imagem e texto. Nossa avaliação de quatro modelos líderes de código fechado, bem como vários modelos de código aberto usando VEGA, destaca a natureza rigorosa da IITC. Mesmo os modelos mais avançados, como Gemini-1.5-pro e GPT4V, alcançaram apenas um sucesso modesto. Ao empregar uma estratégia de pós-treinamento multimodal e em múltiplas escalas, estabelecemos uma base robusta para MLLMs na tarefa IITC, atingindo uma taxa de precisão de 85,8% na associação de imagens e uma pontuação Rouge de 0,508. Esses resultados validam a eficácia do nosso conjunto de dados em melhorar as capacidades dos MLLMs para a compreensão nuances entre imagem e texto.
Zhou et al. (Sex,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: