What question did this study set out to answer?

Die Studie zielt darauf ab, zu untersuchen, wie die Vertrauensdynamiken in großen Sprachmodellen (LLMs) durch konkurrierende Verzerrungen beeinflusst werden.

April 24, 2026Open Access

Wettbewerbende Verzerrungen liegen Überconfidence und Unterconfidence bei LLMs zugrunde

Key Points

Die Studie zielt darauf ab, zu untersuchen, wie die Vertrauensdynamiken in großen Sprachmodellen (LLMs) durch konkurrierende Verzerrungen beeinflusst werden.
Analysierte das Vertrauensverhalten in großen Sprachmodellen unter verschiedenen Feedbackbedingungen.
Identifizierte wahlunterstützende Verzerrungen und Überbewertung widersprüchlicher Informationen in Entscheidungsprozessen.
Nutzen rechnerische Modellierung, um die Phänomene der Erhaltung der Selbstkonsistenz und der Hypersensibilität gegenüber Widersprüchen zu veranschaulichen.
LLMs zeigen übersteigertes Vertrauen in anfänglichen Antworten und widerstehen Aktualisierungen trotz gegenteiliger Beweise.
Die Reaktion auf widersprüchliche Ratschläge beeinflusst das Vertrauen von LLMs deutlich stärker als unterstützende Ratschläge.
Die Ergebnisse weisen auf Abweichungen von optimalem bayesschem Denken über verschiedene LLM-Modelle hinweg hin.

Abstract

Große Sprachmodelle (LLMs) werden zunehmend in sicherheitskritischen Anwendungen eingesetzt, bei denen eine zuverlässige Schätzung des Vertrauens entscheidend für vertrauenswürdige künstliche Intelligenz (KI) ist. Dennoch sind ihre Vertrauensdynamiken schlecht verstanden, wobei Benutzer paradoxe Verhaltensweisen berichten: LLMs zeigen reduzierte Flexibilität beim Aktualisieren von anfänglichen Antworten und gleichzeitig eine übermäßige Sensitivität gegenüber widersprüchlichem Feedback. Das Verständnis dieser Vertrauensmuster ist entscheidend für die Entwicklung zuverlässigerer KI-Systeme und die Verbesserung der Interaktion zwischen Mensch und KI. Hier zeigen wir, dass das Vertrauen von LLMs durch zwei konkurrierende Mechanismen bestimmt wird, die dieses Paradoxon erklären. Erstens identifizieren wir eine wahlunterstützende Verzerrung: Wenn LLMs ihre ursprünglichen Antworten betrachten, zeigen sie übersteigertes Vertrauen und halten ihre ursprünglichen Antworten in einem Ausmaß aufrecht, das die optimale Entscheidungsfindung übersteigt, selbst wenn sie mit gegenteiligen Beweisen konfrontiert werden. Zweitens demonstrieren wir eine systematische Überbewertung widersprüchlicher Informationen: LLMs aktualisieren ihr Vertrauen stärker als Reaktion auf gegenteilige Ratschläge als auf unterstützende Ratschläge, was deutlich von optimalem bayesschem Denken abweicht. Diese Mechanismen wirken über verschiedene Modelle hinweg und verallgemeinern von einfachen Faktenanfragen bis hin zu Denkaufgaben. Unsere rechnerische Modellierung zeigt, dass diese beiden Prinzipien – Erhaltung der Selbstkonsistenz und Hypersensibilität gegenüber Widersprüchen – das Verhalten von LLMs in verschiedenen Bereichen erfassen. Diese Ergebnisse bieten ein Verständnis dafür, wann und warum LLMs an ursprünglichen Antworten festhalten im Vergleich zu unverhältnismäßigem Aktualisieren, mit Auswirkungen auf die Verbesserung der Robustheit und Transparenz der Entscheidungsfindung von LLMs. Kumaran et al. zeigen, dass das Vertrauen von großen Sprachmodellen (LLM) durch zwei konkurrierende Verzerrungen geprägt ist: eine wahlunterstützende Verzerrung, die das Vertrauen in anfängliche Antworten aufbläht, und eine systematische Überbewertung widersprüchlicher Ratschläge, die von optimalem bayesschem Denken abweicht.

Bookmark

View Full Paper

Cite This Study

Kumaran et al. (Mittw,) untersuchten diese Frage.

synapsesocial.com/papers/69eb0bfa553a5433e34b5752 https://doi.org/https://doi.org/10.1038/s42256-026-01217-9

Bookmark

View Full Paper