Multimodale große Sprachmodelle haben beeindruckende Fähigkeiten in verschiedenen Aufgaben gezeigt, jedoch haben sie oft Schwierigkeiten, zwischen aufgabenrelevanten und irrelevanten Signalen zu unterscheiden – insbesondere bei Aufgaben wie der visuellen Fragenbeantwortung – was zu einer Anfälligkeit für irreführende oder spurious Eingaben führen kann. Wir bezeichnen diese breitere Einschränkung als das Cross-Modality Competency Problem – die Unfähigkeit des Modells, alle Modalitäten fair zu bewerten. Diese Verwundbarkeit wird bei modalitätsspezifischen Aufgaben – wie der Bildklassifizierung oder der reinen Textfragenbeantwortung – deutlicher, in denen von Modellen erwartet wird, dass sie sich ausschließlich auf eine Modalität stützen. Bei solchen Aufgaben führt irreführende Information aus irrelevanten Modalitäten oft zu einer signifikanten Leistungsminderung. Wir bezeichnen dieses Versagen als Modalitätsinterferenz, die als konkretes und messbares Beispiel des Cross-Modality Competency Problems dient, und wir entwerfen weitere ein perturbationsbasiertes kausales Diagnoseexperiment, um dieses Problem zu verifizieren und zu quantifizieren. Um Modalitätsinterferenz zu mindern, schlagen wir ein neuartiges Framework zur Feinabstimmung von MLLMs vor, einschließlich perturbationsbasierter Datenaugmentationen mit sowohl heuristischen Störungen als auch adversarialen Störungen, sowie eine Konsistenzregularisierungsstrategie, die auf Modelldaten mit Original- und gestörten Eingaben angewendet wird. Experimente mit mehreren Benchmark-Datensätzen (bildlastige, textlastige und multimodale Aufgaben) und verschiedenen Modellfamilien in unterschiedlichen Größen zeigen signifikante Verbesserungen in der Robustheit und der Cross-Modality Competency, was auf die Effektivität unserer Methode zur Steigerung der unimodalen Schlussfolgerungsfähigkeit hinweist, während die Leistung bei multimodalen Aufgaben verbessert wird.
Cai et al. (Mon,) haben diese Frage untersucht.