What type of study is this?

This is a Quantitative Study study.

October 20, 2025Open Access

MARCOS: Tiefes Denken durch Markov-Kette kontinuierlicher Gedanken

Key Points

MARCOS verbessert die Effizienz des Denkens in großen Sprachmodellen und erreicht einen Leistungsschub von 4,7 % gegenüber herkömmlichen Methoden.
Experimente an GSM8K zeigten, dass MARCOS eine bis zu 15,7x schnellere Inferenz im Vergleich zu traditionellen chain-of-thought-Ansätzen bot.
Die Verwendung eines Markov-Kettenmodells für kontinuierliche Gedanken ermöglicht eine Kontrolle über die Zufälligkeit auf Schritt-Ebene in Denkprozessen.
Dieses neue Paradigma stellt die Einschränkungen der autoregressiven Generierung in Frage, indem es latente Prozesse nutzt, die nicht an die Token-Generierung gebunden sind.

Abstract

Das aktuelle Paradigma für das Denken in großen Sprachmodellen (LLMs) umfasst Modelle, die "laut denken" über eine Sequenz von Tokens, bekannt als chain-of-thought (CoT). Dieser Ansatz ist zwar effektiv, hat aber mehrere erhebliche Nachteile. Erstens erfordert die Inferenz eine autoregressive Generierung von oft tausenden von CoT-Tokens, was langsam und rechenintensiv ist. Zweitens beschränkt es das Denken auf den diskreten Raum von Tokens, was einen Informationsengpass über die Denkschritte schafft. Drittens verknüpft es das Denken grundlegend mit der Token-Generierung, was die LLMs zwingt, "während des Sprechens zu denken", was potenziell kurzsichtige Überlegungen zur Folge hat. In Anbetracht dieser Einschränkungen stellen wir das Denken in LLMs neu vor und präsentieren ein neues Paradigma: MARCOS. In unserem Ansatz modellieren wir das Denken nicht autoregressiv durch Tokens, sondern als eine verborgene Markov-Kette kontinuierlicher, hochdimensionaler "Gedanken". Jeder Denkschritt umfasst einen Übergang der internen Gedanken, wobei explizite Denkschritte (die aus Hunderten von Tokens bestehen können) als beobachtbare Variablen dienen, die Fenster bieten, um einen Blick auf die impliziten Gedanken zu werfen. Da dieser latente Prozess mit dem Standard des überwachten Lernens inkompatibel ist, schlagen wir darüber hinaus ein zweiphasiges variationales Trainingsschema vor. Unsere Experimente an drei Benchmarks zeigen, dass MARCOS bestehende kontinuierliche Denkmethoden übertrifft und zum ersten Mal eine Leistung erreicht, die mit der Token-basierten CoT vergleichbar ist und sie sogar um 4,7 % auf GSM8K übertrifft, mit einer Beschleunigung der Inferenz um bis zu 15,7x. Darüber hinaus bietet MARCOS zusätzliche Vorteile, wie eine Kontrolle über die Zufälligkeit auf Schritt- statt Token-Ebene, was erhebliche Möglichkeiten für Reinforcement Learning und Denken in LLMs eröffnet.

MARCOS: Tiefes Denken durch Markov-Kette kontinuierlicher Gedanken

Key Points

Abstract

Cite This Study

Also Consider

Also Consider