Multimodale große Sprachmodelle (MLLMs) sind ein leistungsstarkes Werkzeug zur Integration visueller und textualer Informationen. Trotz ihrer außergewöhnlichen Leistung bei Benchmarks zum visuellen Verständnis bleibt es eine erhebliche Herausforderung, ihre Fähigkeit zum abstrakten Denken über mehrere Bilder hinweg zu messen. Um dies zu adressieren, stellen wir VOILA vor, ein groß angelegter, offener, dynamischer Benchmark, der dazu dient, das perceptuelle Verständnis und das abstrakte relationale Denken von MLLMs zu bewerten. VOILA verwendet einen analogischen Mapping-Ansatz im visuellen Bereich, der von den Modellen erfordert, ein Bild zu generieren, das eine Analogie zwischen zwei gegebenen Bildpaaren, Referenz und Anwendung, vervollständigt, ohne auf vordefinierte Auswahlmöglichkeiten zurückzugreifen. Unsere Experimente zeigen, dass die Aufgaben des analogischen Denkens in VOILA eine Herausforderung für MLLMs darstellen. Durch eine mehrstufige Analyse offenbaren wir, dass aktuelle MLLMs Schwierigkeiten haben, inter-image Beziehungen zu verstehen und nur begrenzte Fähigkeiten im hochgradigen relationalen Denken aufweisen. Bemerkenswert ist, dass die Leistung sich verbessert, wenn eine mehrstufige Strategie vom wenigsten zum meisten Prompting befolgt wird. Umfassende Bewertungen von Open-Source-Modellen und GPT-4o zeigen, dass die beste Genauigkeit für herausfordernde Szenarien bei textbasierten Antworten nur 13% (LLaMa 3.2) beträgt und selbst für einfachere Aufgaben nur 29% (GPT-4o) erreicht, während die menschliche Leistung in beiden Schwierigkeitsgraden signifikant höher bei 70% ist.
Yılmaz et al. (Diens,) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: