June 17, 2024Open Access

Den Labyrinth navigieren: Bewertung und Verbesserung der Fähigkeit von LLMs, über Suchprobleme zu argumentieren

Key Points

Key points are not available for this paper at this time.

Abstract

Kürzlich haben große Sprachmodelle (LLMs) beeindruckende Leistungen in Mathematik- und Denkbenchmarks erzielt. Dennoch haben sie oft Schwierigkeiten mit logischen Problemen und Rätseln, die für Menschen relativ einfach sind. Um dies weiter zu untersuchen, führen wir einen neuen Benchmark, SearchBench, ein, der 11 einzigartige Typen von Suchproblemen enthält, jedes ausgestattet mit automatisierten Pipelines, um eine beliebige Anzahl von Instanzen zu generieren und die Machbarkeit, Richtigkeit und Optimalität der von LLM generierten Lösungen zu analysieren. Wir zeigen, dass selbst die fortschrittlichsten LLMs diese Probleme nicht durchgängig in Text lösen, z. B. löst GPT-4 nur 1,4%. Die SearchBench-Probleme erfordern die Berücksichtigung mehrerer Lösungswege sowie Backtracking, was eine erhebliche Herausforderung für autoregressive Modelle darstellt. LLMs anzuweisen, Code zu generieren, der das Problem löst, hilft, aber nur geringfügig, z. B. steigt die Leistung von GPT-4 auf 11,7%. In dieser Arbeit zeigen wir, dass das Lernen im Kontext mit Implementierungen des A*-Algorithmus die Leistung verbessert. Das volle Potenzial dieses fördernden Ansatzes kommt zum Tragen, wenn er mit unserer vorgeschlagenen Methode Multi-Stage-Multi-Try kombiniert wird, die die Implementierung des Algorithmus in zwei Phasen aufteilt und die erste Phase gegen Unit-Tests überprüft, wodurch die Leistung von GPT-4 über 57% steigt.

Den Labyrinth navigieren: Bewertung und Verbesserung der Fähigkeit von LLMs, über Suchprobleme zu argumentieren

Key Points

Abstract

Cite This Study

Also Consider

Also Consider