Key points are not available for this paper at this time.
Kürzlich haben große Sprachmodelle (LLMs) beeindruckende Leistungen in Mathematik- und Denkbenchmarks erzielt. Dennoch haben sie oft Schwierigkeiten mit logischen Problemen und Rätseln, die für Menschen relativ einfach sind. Um dies weiter zu untersuchen, führen wir einen neuen Benchmark, SearchBench, ein, der 11 einzigartige Typen von Suchproblemen enthält, jedes ausgestattet mit automatisierten Pipelines, um eine beliebige Anzahl von Instanzen zu generieren und die Machbarkeit, Richtigkeit und Optimalität der von LLM generierten Lösungen zu analysieren. Wir zeigen, dass selbst die fortschrittlichsten LLMs diese Probleme nicht durchgängig in Text lösen, z. B. löst GPT-4 nur 1,4%. Die SearchBench-Probleme erfordern die Berücksichtigung mehrerer Lösungswege sowie Backtracking, was eine erhebliche Herausforderung für autoregressive Modelle darstellt. LLMs anzuweisen, Code zu generieren, der das Problem löst, hilft, aber nur geringfügig, z. B. steigt die Leistung von GPT-4 auf 11,7%. In dieser Arbeit zeigen wir, dass das Lernen im Kontext mit Implementierungen des A*-Algorithmus die Leistung verbessert. Das volle Potenzial dieses fördernden Ansatzes kommt zum Tragen, wenn er mit unserer vorgeschlagenen Methode Multi-Stage-Multi-Try kombiniert wird, die die Implementierung des Algorithmus in zwei Phasen aufteilt und die erste Phase gegen Unit-Tests überprüft, wodurch die Leistung von GPT-4 über 57% steigt.
Borazjanizadeh et al. (Mon,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: