Key points are not available for this paper at this time.
Multimodale große Sprachmodelle (MLLMs) sind anfällig für nicht-faktische oder veraltete Wissensprobleme, die sich aufgrund der Komplexität multimodalen Wissens in Misslese- und Fehlidentifikationsfehlern äußern können. Frühere Benchmarks haben die Leistung von Bearbeitungsmethoden zur Korrektur dieser beiden Fehlertypen nicht systematisch analysiert. Um diese Fehler besser darzustellen und zu korrigieren, zerlegen wir multimodales Wissen in seine visuellen und textuellen Komponenten. Verschiedene Fehlertypen entsprechen unterschiedlichen Bearbeitungsformaten, die verschiedene Teile des multimodalen Wissens bearbeiten. Wir präsentieren MC-MKE, einen feinkörnigen Benchmark zur multimodalen Wissensbearbeitung mit Betonung auf Modalitätskonsistenz. Unser Benchmark ermöglicht die unabhängige Korrektur von Misslese- und Fehlidentifikationsfehlern durch die Bearbeitung der entsprechenden Wissenskomponente. Wir bewerten drei Methoden zur multimodalen Wissensbearbeitung auf MC-MKE und offenbaren deren Einschränkungen, insbesondere hinsichtlich der Modalitätskonsistenz. Unsere Arbeit hebt die Herausforderungen hervor, die multimodale Wissensbearbeitung mit sich bringt und motiviert weitere Forschungen zur Entwicklung effektiver Techniken für diese Aufgabe.
Zhang et al. (Mittwoch) haben diese Frage untersucht.