Key points are not available for this paper at this time.
Dieses Papier führt die neuartige Aufgabe des multimodalen Rätsellösens ein, eingebettet in den Kontext des visuellen Frage-Antwort-Systems. Wir präsentieren einen neuen Datensatz, AlgoPuzzleVQA, der dazu entworfen wurde, die Fähigkeiten multimodaler Sprachmodelle beim Lösen algorithmischer Rätsel, die sowohl visuelles Verständnis, Sprachverständnis als auch komplexes algorithmisches Denken erfordern, herauszufordern und zu bewerten. Wir erstellen die Rätsel so, dass sie eine Vielzahl von mathematischen und algorithmischen Themen wie Boolesche Logik, Kombinatorik, Graphentheorie, Optimierung, Suche usw. abdecken, mit dem Ziel, die Lücke zwischen visueller Dateninterpretation und algorithmischen Problemlösungsfähigkeiten zu bewerten. Der Datensatz wird automatisch aus von Menschen verfasstem Code generiert. Alle unsere Rätsel haben exakte Lösungen, die aus dem Algorithmus gefunden werden können, ohne mühsame menschliche Berechnungen. Dies stellt sicher, dass unser Datensatz in Bezug auf die Komplexität des Denkens und die Größe des Datensatzes beliebig skaliert werden kann. Unsere Untersuchung zeigt, dass große Sprachmodelle (LLMs) wie GPT4V und Gemini eine begrenzte Leistung bei Rätsellösungsaufgaben aufweisen. Wir stellen fest, dass ihre Leistung in einem Multiple-Choice-Frage-Antwort-Setup für eine signifikante Anzahl von Rätseln nahe dem Zufallsniveau liegt. Die Ergebnisse betonen die Herausforderungen bei der Integration von visuellem, sprachlichem und algorithmischem Wissen zum Lösen komplexer Denkprobleme.
Ghosal et al. (Mittwoch,) haben diese Frage untersucht.