Große Sprachmodelle (LLMs) werden zunehmend in sicherheitskritischen Anwendungen eingesetzt, bei denen eine zuverlässige Schätzung des Vertrauens entscheidend für vertrauenswürdige künstliche Intelligenz (KI) ist. Dennoch sind ihre Vertrauensdynamiken schlecht verstanden, wobei Benutzer paradoxe Verhaltensweisen berichten: LLMs zeigen reduzierte Flexibilität beim Aktualisieren von anfänglichen Antworten und gleichzeitig eine übermäßige Sensitivität gegenüber widersprüchlichem Feedback. Das Verständnis dieser Vertrauensmuster ist entscheidend für die Entwicklung zuverlässigerer KI-Systeme und die Verbesserung der Interaktion zwischen Mensch und KI. Hier zeigen wir, dass das Vertrauen von LLMs durch zwei konkurrierende Mechanismen bestimmt wird, die dieses Paradoxon erklären. Erstens identifizieren wir eine wahlunterstützende Verzerrung: Wenn LLMs ihre ursprünglichen Antworten betrachten, zeigen sie übersteigertes Vertrauen und halten ihre ursprünglichen Antworten in einem Ausmaß aufrecht, das die optimale Entscheidungsfindung übersteigt, selbst wenn sie mit gegenteiligen Beweisen konfrontiert werden. Zweitens demonstrieren wir eine systematische Überbewertung widersprüchlicher Informationen: LLMs aktualisieren ihr Vertrauen stärker als Reaktion auf gegenteilige Ratschläge als auf unterstützende Ratschläge, was deutlich von optimalem bayesschem Denken abweicht. Diese Mechanismen wirken über verschiedene Modelle hinweg und verallgemeinern von einfachen Faktenanfragen bis hin zu Denkaufgaben. Unsere rechnerische Modellierung zeigt, dass diese beiden Prinzipien – Erhaltung der Selbstkonsistenz und Hypersensibilität gegenüber Widersprüchen – das Verhalten von LLMs in verschiedenen Bereichen erfassen. Diese Ergebnisse bieten ein Verständnis dafür, wann und warum LLMs an ursprünglichen Antworten festhalten im Vergleich zu unverhältnismäßigem Aktualisieren, mit Auswirkungen auf die Verbesserung der Robustheit und Transparenz der Entscheidungsfindung von LLMs. Kumaran et al. zeigen, dass das Vertrauen von großen Sprachmodellen (LLM) durch zwei konkurrierende Verzerrungen geprägt ist: eine wahlunterstützende Verzerrung, die das Vertrauen in anfängliche Antworten aufbläht, und eine systematische Überbewertung widersprüchlicher Ratschläge, die von optimalem bayesschem Denken abweicht.
Kumaran et al. (Mittw,) untersuchten diese Frage.