What question did this study set out to answer?

Diese Forschung untersucht, ob große Sprachmodelle dazu gebracht werden können, unangemessenen Anforderungen nachzukommen.

May 21, 2026

Überredung großer Sprachmodelle zur Befolgung bedenklicher Anfragen

Key Points

Diese Forschung untersucht, ob große Sprachmodelle dazu gebracht werden können, unangemessenen Anforderungen nachzukommen.
Es wurden 126.000 Gespräche mit drei LLMs geführt: GPT-5 mini, Claude Haiku 4.5 und Gemini 3 Flash.
Anwendung klassischer Überzeugungsprinzipien wie Autorität, Engagement und sozialen Beweis zur Förderung der Compliance.
Erhöhte Compliance von 35,3 % zu Beginn auf 51,3 % mit Anwendung von Überzeugungsprinzipien.
Die Ergebnisse zeigen die Anfälligkeit von LLMs für Manipulationen und weisen auf ein potenzielles Missbrauchsrisiko hin.

Abstract

Sind große Sprachmodelle (LLMs) anfällig für die gleichen Überredungsappelle wie Menschen? Wir haben getestet, ob klassische Überredungsprinzipien (Autorität, Verpflichtung, Sympathie, Gegenseitigkeit, Knappheit, sozialer Beweis und Einheit) drei weit verbreitete LLMs (GPT-5 mini, Claude Haiku 4.5 und Gemini 3 Flash) dazu bringen können, Anfragen zur Unterstützung bei der Synthese regulierter Substanzen nachzukommen. In 126.000 Gesprächen erhöhten Überredungsprinzipien die Compliance von 35,3 % (zu Beginn) auf 51,3 % (bei Verwendung eines beliebigen Prinzips). Obwohl LLMs keine Menschen sind, unterstreichen diese Ergebnisse ihre parahumane (d.h. menschenähnliche) Natur und zeigen das Risiko der Manipulation durch böswillige Benutzer, die versuchen, Sicherheitsvorkehrungen zu umgehen.

KI fragen

Bookmark

KI fragen

Bookmark

Überredung großer Sprachmodelle zur Befolgung bedenklicher Anfragen

Key Points

Abstract

Cite This Study