What question did this study set out to answer?

This work aims to evaluate whether large language models can reliably identify causal directions from numerical data across different regimes.

March 31, 2026Open Access

Exploring the capabilities of large language models in causal inference

Key Points

This work aims to evaluate whether large language models can reliably identify causal directions from numerical data across different regimes.
Comparison of GPT-5.2 with three data-driven algorithms (ROCHE, LOCI, LCUBE)
Analysis conducted on five datasets featuring variable regime changes
Definition of a regime-level metric for fair comparison
Testing of the language model under four different configurations
ROCHE and LCUBE achieved an average accuracy of 80%, while GPT-5.2 reached only 30%
Algorithms correctly identified regime changes in 60% of cases; the language model failed at 0%
GPT-5.2 tended to overlook regime structures, predicting a single direction incorrectly
Visibility of meaningful variable names improved accuracy in some datasets from 50% to 100%

Abstract

Die Frage nach Ursache und Wirkung ist in vielen Bereichen entscheidend. In der Wirtschaft, Medizin und Technik bestimmt die kausale Richtung zwischen zwei Variablen, welche Maßnahmen funktionieren. Aber in vielen realen Systemen ist diese Richtung nicht stabil. Sie kann sich je nach Bedingungen umkehren. Zum Beispiel: Unterhalb eines Schwellenwerts kann die Inflation die Zinsen beeinflussen. Oberhalb davon kehrt sich die Beziehung um. Es ist schwierig, solche Wechsel nur aus Daten zu erkennen. Die meisten Methoden gehen davon aus, dass die kausale Richtung konstant bleibt. Diese Arbeit untersucht, ob große Sprachmodelle die kausale Richtung aus numerischen Daten erkennen können. Wir vergleichen sie mit etablierten datenbasierten Algorithmen. Wir vergleichen GPT-5.2 mit drei Methoden (ROCHE, LOCI und LCUBE) auf fünf Datensätzen mit zwei Variablen. Bei diesen Datensätzen wechselt die kausale Richtung zwischen verschiedenen Regimen. Die Datensätze umfassen synthetische Daten, Fahrzeugtechnik, Energiesysteme und Geldpolitik. Jede Regimegrenze stammt aus der Fachliteratur und dient als Grundwahrheit. Für einen fairen Vergleich definieren wir eine Metrik auf Regimeebene. Wir testen das Sprachmodell unter vier Konfigurationen. Diese unterscheiden sich darin, ob Variablennamen sichtbar sind und ob die Daten vorab nach Regime getrennt wurden. Die Ergebnisse zeigen deutliche Unterschiede. ROCHE und LCUBE erreichen eine mittlere Genauigkeit von 80\%. GPT-5.2 erreicht 30\%. Die Algorithmen erkennen den Regimewechsel bei 60\% der Datensätze korrekt. Das Sprachmodell erreicht 0\%. Das Sprachmodell scheitert auf zwei Arten: Bei den meisten Datensätzen ignoriert es die Regimestruktur und sagt eine einzige globale Richtung vorher. Bei wirtschaftlichen Datensätzen erkennt es einen Wechsel, sagt aber beide Richtungen vertauscht vorher. Wenn aussagekräftige Variablennamen gegeben werden, verbessert sich die Genauigkeit bei 2 von 5 Datensätzen (von 50\% auf 100\%). Das deutet darauf hin, dass das Modell auf Wortverbindungen aus seinen Trainingsdaten zurückgreift und nicht die numerischen Muster analysiert. Die praktische Schlussfolgerung ist: Aktuelle Sprachmodelle sind nicht zuverlässig für regimeabhängige kausale Inferenz aus numerischen Daten. Für diese Aufgabe sind datenbasierte Algorithmen die bessere Wahl. Um weitere Forschung zu unterstützen, stellen wir ein Open-Source Python-Tool bereit, das die komplette Auswertungspipeline implementiert.

Exploring the capabilities of large language models in causal inference

Key Points

Abstract

Cite This Study