Key points are not available for this paper at this time.
Neste trabalho, introduzimos a série Qwen-VL, um conjunto de modelos de visão-linguagem em larga escala (LVLMs) projetados para perceber e entender tanto textos quanto imagens. Partindo do Qwen-LM como base, dotamos-o de capacidade visual através do (i) receptor visual meticulosamente projetado, (ii) interface de entrada-saída, (iii) pipeline de treinamento em 3 etapas e (iv) corpus multilíngue e multimodal limpo. Além da descrição convencional de imagens e da resposta a perguntas, implementamos a capacidade de ancoragem e leitura de texto dos Qwen-VLs alinhando tuplas de imagem-legenda-caixa. Os modelos resultantes, incluindo Qwen-VL e Qwen-VL-Chat, estabelecem novos recordes para modelos generalistas em escalas de modelo semelhantes em uma ampla gama de benchmarks centrados em visualização (por exemplo, geração de legendas de imagens, resposta a perguntas, ancoragem visual) e diferentes configurações (por exemplo, zero-shot, few-shot). Além disso, em benchmarks de diálogo do mundo real, nosso Qwen-VL-Chat ajustado por instrução também demonstra superioridade em comparação com chatbots de visão-linguagem existentes. O código, a demonstração e os modelos estão disponíveis em https://github.com/QwenLM/Qwen-VL.
Bai et al. (Qui,) estudaram esta questão.