Key points are not available for this paper at this time.
Große Sprachmodelle (LLMs) sind anfällig für eine Art von Angriff, der als Jailbreaking bekannt ist, und der LLMs dazu verleitet, schädliche Inhalte auszugeben. Obwohl es verschiedene Jailbreak-Angriffsstrategien gibt, gibt es kein einheitliches Verständnis dafür, warum einige Methoden erfolgreich sind und andere nicht. Dieses Papier untersucht das Verhalten von schädlichen und harmlosen Eingabeaufforderungen im Repräsentationsraum des LLM, um die intrinsischen Eigenschaften erfolgreicher Jailbreak-Angriffe zu untersuchen. Wir haben die Hypothese, dass erfolgreiche Angriffe einige ähnliche Eigenschaften teilen: Sie sind effektiv darin, die Darstellung der schädlichen Eingabeaufforderung in Richtung der harmlosen Eingabeaufforderungen zu verschieben. Wir nutzen versteckte Darstellungen in das Ziel bestehender Jailbreak-Angriffe, um die Angriffe in die akzeptierte Richtung zu lenken, und führen Experimente durch, um die obige Hypothese mit dem vorgeschlagenen Ziel zu validieren. Wir hoffen, dass diese Studie neue Erkenntnisse darüber liefert, wie LLMs Informationen über Schadhaftigkeit verstehen.
Lin et al. (Sat.) haben diese Frage untersucht.