July 2, 2024Open Access

Warum antworten LLaVA Vision-Language-Modelle auf Bilder auf Englisch?

Key Points

Key points are not available for this paper at this time.

Abstract

Wir decken eine überraschende mehrsprachige Verzerrung auf, die in einer beliebten Klasse multimodaler Vision-Language-Modelle (VLMs) auftritt. Die Einbeziehung eines Bildes in die Anfrage an ein LLaVA-ähnliches VLM erhöht signifikant die Wahrscheinlichkeit, dass das Modell eine englische Antwort zurückgibt, unabhängig von der Sprache der Anfrage. Diese Arbeit untersucht die Ursachen dieses Verlusts mit einem zweigleisigen Ansatz, der eine umfassende Ablation des Designraums mit einer mechanistischen Analyse der internen Repräsentationen der Modelle von Bild- und Texteingaben kombiniert. Beide Ansätze deuten darauf hin, dass das Problem in der Sprachmodellierungs-Komponente des LLaVA-Modells liegt. Statistisch stellen wir fest, dass der Wechsel des Sprach-Rückgrats für ein bilinguales Sprachmodell den stärksten Einfluss auf die Reduzierung dieses Fehlers hat. Mechanistisch liefern wir überzeugende Beweise dafür, dass visuelle Eingaben nicht in einen ähnlichen Raum wie Texteingaben abgebildet werden und dass Eingriffe in die Zwischenaufmerksamkeitsschichten diese Verzerrung reduzieren können. Unsere Ergebnisse bieten wichtige Erkenntnisse für Forscher und Ingenieure, die den Übergang zwischen multimodalen und mehrsprachigen Räumen verstehen möchten, und tragen zum Ziel bei, fähige und inklusive VLMs für nicht-englische Kontexte zu entwickeln.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper