Das aktuelle Paradigma für das Denken in großen Sprachmodellen (LLMs) umfasst Modelle, die "laut denken" über eine Sequenz von Tokens, bekannt als chain-of-thought (CoT). Dieser Ansatz ist zwar effektiv, hat aber mehrere erhebliche Nachteile. Erstens erfordert die Inferenz eine autoregressive Generierung von oft tausenden von CoT-Tokens, was langsam und rechenintensiv ist. Zweitens beschränkt es das Denken auf den diskreten Raum von Tokens, was einen Informationsengpass über die Denkschritte schafft. Drittens verknüpft es das Denken grundlegend mit der Token-Generierung, was die LLMs zwingt, "während des Sprechens zu denken", was potenziell kurzsichtige Überlegungen zur Folge hat. In Anbetracht dieser Einschränkungen stellen wir das Denken in LLMs neu vor und präsentieren ein neues Paradigma: MARCOS. In unserem Ansatz modellieren wir das Denken nicht autoregressiv durch Tokens, sondern als eine verborgene Markov-Kette kontinuierlicher, hochdimensionaler "Gedanken". Jeder Denkschritt umfasst einen Übergang der internen Gedanken, wobei explizite Denkschritte (die aus Hunderten von Tokens bestehen können) als beobachtbare Variablen dienen, die Fenster bieten, um einen Blick auf die impliziten Gedanken zu werfen. Da dieser latente Prozess mit dem Standard des überwachten Lernens inkompatibel ist, schlagen wir darüber hinaus ein zweiphasiges variationales Trainingsschema vor. Unsere Experimente an drei Benchmarks zeigen, dass MARCOS bestehende kontinuierliche Denkmethoden übertrifft und zum ersten Mal eine Leistung erreicht, die mit der Token-basierten CoT vergleichbar ist und sie sogar um 4,7 % auf GSM8K übertrifft, mit einer Beschleunigung der Inferenz um bis zu 15,7x. Darüber hinaus bietet MARCOS zusätzliche Vorteile, wie eine Kontrolle über die Zufälligkeit auf Schritt- statt Token-Ebene, was erhebliche Möglichkeiten für Reinforcement Learning und Denken in LLMs eröffnet.
Liu et al. (Mon,) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: