March 27, 2024Open Access

Mini-Gemini : Explorer le potentiel des modèles de langage visuel multi-modalité

Key Points

Key points are not available for this paper at this time.

Abstract

Dans ce travail, nous introduisons Mini-Gemini, un cadre simple et efficace améliorant les modèles de langage visuel multi-modalité (VLMs). Malgré les avancées dans les VLM facilitant les dialogues visuels de base et le raisonnement, un écart de performance persiste par rapport à des modèles avancés comme GPT-4 et Gemini. Nous essayons de réduire cet écart en exploitant le potentiel des VLMs pour une meilleure performance et un flux de travail de type any-to-any sous trois aspects, à savoir, des jetons visuels haute résolution, des données de haute qualité et une génération guidée par VLM. Pour améliorer les jetons visuels, nous proposons d'utiliser un encodeur visuel supplémentaire pour un affinage haute résolution sans augmenter le nombre de jetons visuels. Nous construisons également un ensemble de données de haute qualité qui favorise une compréhension précise des images et une génération basée sur le raisonnement, élargissant le champ d'application des VLMs actuels. En général, Mini-Gemini exploite davantage le potentiel des VLMs et renforce les cadres actuels avec compréhension des images, raisonnement et génération simultanément. Mini-Gemini prend en charge une série de modèles de langage de grande taille (LLMs) denses et MoE allant de 2B à 34B. Il est démontré qu'il atteint des performances de pointe dans plusieurs benchmarks zero-shot et dépasse même les modèles privés développés. Le code et les modèles sont disponibles sur https://github.com/dvlab-research/MiniGemini.

Read Full Paperexternally

Demander à l'IA

Bookmark

View Full Paper