What type of study is this?

This is a Quantitative Study study.

October 20, 2025Open Access

VOILA: Bewertung von MLLMs zur perceptuellen Verständnis und analogischem Denken

Key Points

MLLMs zeigen begrenzte Fähigkeiten im abstrakten Denken über visuelle Informationen hinweg und haben Schwierigkeiten mit inter-image Beziehungen.
Die Genauigkeit in den herausforderndsten Szenarien für Modelle wie LLaMa 3.2 liegt nur bei 13%, während GPT-4o bei einfacheren Aufgaben 29% erreicht.
Die Bewertung zeigt, dass ein mehrstufiger Ansatz die Leistung bei Aufgaben des analogischen Denkens innerhalb von MLLMs verbessert.
Die menschliche Leistung setzt mit 70% einen hohen Maßstab und deutet auf erheblichen Verbesserungsbedarf bei MLLMs hin.

Abstract

Multimodale große Sprachmodelle (MLLMs) sind ein leistungsstarkes Werkzeug zur Integration visueller und textualer Informationen. Trotz ihrer außergewöhnlichen Leistung bei Benchmarks zum visuellen Verständnis bleibt es eine erhebliche Herausforderung, ihre Fähigkeit zum abstrakten Denken über mehrere Bilder hinweg zu messen. Um dies zu adressieren, stellen wir VOILA vor, ein groß angelegter, offener, dynamischer Benchmark, der dazu dient, das perceptuelle Verständnis und das abstrakte relationale Denken von MLLMs zu bewerten. VOILA verwendet einen analogischen Mapping-Ansatz im visuellen Bereich, der von den Modellen erfordert, ein Bild zu generieren, das eine Analogie zwischen zwei gegebenen Bildpaaren, Referenz und Anwendung, vervollständigt, ohne auf vordefinierte Auswahlmöglichkeiten zurückzugreifen. Unsere Experimente zeigen, dass die Aufgaben des analogischen Denkens in VOILA eine Herausforderung für MLLMs darstellen. Durch eine mehrstufige Analyse offenbaren wir, dass aktuelle MLLMs Schwierigkeiten haben, inter-image Beziehungen zu verstehen und nur begrenzte Fähigkeiten im hochgradigen relationalen Denken aufweisen. Bemerkenswert ist, dass die Leistung sich verbessert, wenn eine mehrstufige Strategie vom wenigsten zum meisten Prompting befolgt wird. Umfassende Bewertungen von Open-Source-Modellen und GPT-4o zeigen, dass die beste Genauigkeit für herausfordernde Szenarien bei textbasierten Antworten nur 13% (LLaMa 3.2) beträgt und selbst für einfachere Aufgaben nur 29% (GPT-4o) erreicht, während die menschliche Leistung in beiden Schwierigkeitsgraden signifikant höher bei 70% ist.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper