Key points are not available for this paper at this time.
Wir stellen InternLM-XComposer2 vor, ein hochmodernes Vision-Language-Modell, das in der Freiform-Text-Bild-Komposition und im Verständnis hervorragende Leistungen erbringt. Dieses Modell geht über das herkömmliche Verständnis von Vision und Sprache hinaus und erstellt geschickt ineinandergreifende Text-Bild-Inhalte aus unterschiedlichsten Eingaben wie Skizzen, detaillierten Textspezifikationen und Referenzbildern, was eine hochgradig anpassbare Inhaltserstellung ermöglicht. InternLM-XComposer2 schlägt einen Partial LoRA (PLoRA)-Ansatz vor, der zusätzliche LoRA-Parameter ausschließlich auf Bild-Tokens anwendet, um die Integrität des vortrainierten Sprachwissens zu bewahren und ein Gleichgewicht zwischen präzisem Visionsverständnis und Textkomposition mit literarischem Talent zu finden. Experimentelle Ergebnisse zeigen die Überlegenheit von InternLM-XComposer2 auf Basis von InternLM2-7B bei der Produktion hochwertiger langformatiger multimodaler Inhalte und seiner außergewöhnlichen Leistungen im Verständnis von Vision und Sprache in verschiedenen Benchmarks, wo es nicht nur bestehende multimodale Modelle erheblich übertrifft, sondern auch in bestimmten Bewertungen gleichzieht oder sogar GPT-4V und Gemini Pro übertrifft. Dies unterstreicht seine bemerkenswerte Kompetenz im Bereich des multimodalen Verständnisses. Die Modellreihe InternLM-XComposer2 mit 7B Parametern ist öffentlich verfügbar unter https://github.com/InternLM/InternLM-XComposer.
Dong et al. (Mon,) haben diese Frage untersucht.