What type of study is this?

This is a Quantitative Study study (also classified as: Experimental Study).

October 20, 2025Open Access

Diagnostizieren und Mildern von Modalitätsinterferenz in multimodalen großen Sprachmodellen

Key Points

Modalitätsinterferenz in multimodalen großen Sprachmodellen führt zu einer signifikanten Leistungsminderung bei Aufgaben, die auf einzelnen Modalitäten basieren.
Experimente zeigten, dass perturbationsbasierte Datenaugmentationen die Robustheit des Modells über verschiedene Benchmark-Datensätze verbesserten.
Das Cross-Modality Competency Problem behindert die Bewertung aufgabenrelevanter Signale und beeinflusst Aufgaben der visuellen Fragenbeantwortung.
Ein neuartiges Framework, das Konsistenzregularisierung auf Original- und gestörte Eingaben anwendet, steigert effektiv die unimodale Schlussfolgerung.

Abstract

Multimodale große Sprachmodelle haben beeindruckende Fähigkeiten in verschiedenen Aufgaben gezeigt, jedoch haben sie oft Schwierigkeiten, zwischen aufgabenrelevanten und irrelevanten Signalen zu unterscheiden – insbesondere bei Aufgaben wie der visuellen Fragenbeantwortung – was zu einer Anfälligkeit für irreführende oder spurious Eingaben führen kann. Wir bezeichnen diese breitere Einschränkung als das Cross-Modality Competency Problem – die Unfähigkeit des Modells, alle Modalitäten fair zu bewerten. Diese Verwundbarkeit wird bei modalitätsspezifischen Aufgaben – wie der Bildklassifizierung oder der reinen Textfragenbeantwortung – deutlicher, in denen von Modellen erwartet wird, dass sie sich ausschließlich auf eine Modalität stützen. Bei solchen Aufgaben führt irreführende Information aus irrelevanten Modalitäten oft zu einer signifikanten Leistungsminderung. Wir bezeichnen dieses Versagen als Modalitätsinterferenz, die als konkretes und messbares Beispiel des Cross-Modality Competency Problems dient, und wir entwerfen weitere ein perturbationsbasiertes kausales Diagnoseexperiment, um dieses Problem zu verifizieren und zu quantifizieren. Um Modalitätsinterferenz zu mindern, schlagen wir ein neuartiges Framework zur Feinabstimmung von MLLMs vor, einschließlich perturbationsbasierter Datenaugmentationen mit sowohl heuristischen Störungen als auch adversarialen Störungen, sowie eine Konsistenzregularisierungsstrategie, die auf Modelldaten mit Original- und gestörten Eingaben angewendet wird. Experimente mit mehreren Benchmark-Datensätzen (bildlastige, textlastige und multimodale Aufgaben) und verschiedenen Modellfamilien in unterschiedlichen Größen zeigen signifikante Verbesserungen in der Robustheit und der Cross-Modality Competency, was auf die Effektivität unserer Methode zur Steigerung der unimodalen Schlussfolgerungsfähigkeit hinweist, während die Leistung bei multimodalen Aufgaben verbessert wird.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper