Die Frage nach Ursache und Wirkung ist in vielen Bereichen entscheidend. In der Wirtschaft, Medizin und Technik bestimmt die kausale Richtung zwischen zwei Variablen, welche Maßnahmen funktionieren. Aber in vielen realen Systemen ist diese Richtung nicht stabil. Sie kann sich je nach Bedingungen umkehren. Zum Beispiel: Unterhalb eines Schwellenwerts kann die Inflation die Zinsen beeinflussen. Oberhalb davon kehrt sich die Beziehung um. Es ist schwierig, solche Wechsel nur aus Daten zu erkennen. Die meisten Methoden gehen davon aus, dass die kausale Richtung konstant bleibt. Diese Arbeit untersucht, ob große Sprachmodelle die kausale Richtung aus numerischen Daten erkennen können. Wir vergleichen sie mit etablierten datenbasierten Algorithmen. Wir vergleichen GPT-5.2 mit drei Methoden (ROCHE, LOCI und LCUBE) auf fünf Datensätzen mit zwei Variablen. Bei diesen Datensätzen wechselt die kausale Richtung zwischen verschiedenen Regimen. Die Datensätze umfassen synthetische Daten, Fahrzeugtechnik, Energiesysteme und Geldpolitik. Jede Regimegrenze stammt aus der Fachliteratur und dient als Grundwahrheit. Für einen fairen Vergleich definieren wir eine Metrik auf Regimeebene. Wir testen das Sprachmodell unter vier Konfigurationen. Diese unterscheiden sich darin, ob Variablennamen sichtbar sind und ob die Daten vorab nach Regime getrennt wurden. Die Ergebnisse zeigen deutliche Unterschiede. ROCHE und LCUBE erreichen eine mittlere Genauigkeit von 80\%. GPT-5.2 erreicht 30\%. Die Algorithmen erkennen den Regimewechsel bei 60\% der Datensätze korrekt. Das Sprachmodell erreicht 0\%. Das Sprachmodell scheitert auf zwei Arten: Bei den meisten Datensätzen ignoriert es die Regimestruktur und sagt eine einzige globale Richtung vorher. Bei wirtschaftlichen Datensätzen erkennt es einen Wechsel, sagt aber beide Richtungen vertauscht vorher. Wenn aussagekräftige Variablennamen gegeben werden, verbessert sich die Genauigkeit bei 2 von 5 Datensätzen (von 50\% auf 100\%). Das deutet darauf hin, dass das Modell auf Wortverbindungen aus seinen Trainingsdaten zurückgreift und nicht die numerischen Muster analysiert. Die praktische Schlussfolgerung ist: Aktuelle Sprachmodelle sind nicht zuverlässig für regimeabhängige kausale Inferenz aus numerischen Daten. Für diese Aufgabe sind datenbasierte Algorithmen die bessere Wahl. Um weitere Forschung zu unterstützen, stellen wir ein Open-Source Python-Tool bereit, das die komplette Auswertungspipeline implementiert.
Andres Vladimir Arostegui Arias (Thu,) studied this question.