May 9, 2024Open Access

Angriffsreihe: ein semantisch gesteuertes kontextuales Multi-Turn-Angreifer für LLM

Key Points

Key points are not available for this paper at this time.

Abstract

Große Sprachmodelle (LLMs) haben bemerkenswerte Leistungen in verschiedenen Aufgaben der natürlichen Sprachverarbeitung erzielt, insbesondere in Dialogsystemen. Allerdings können LLM auch Sicherheits- und moralische Bedrohungen darstellen, insbesondere in mehrrunden Gesprächen, wo große Modelle leichter durch kontextuelle Inhalte geleitet werden, was zu schädlichen oder voreingenommenen Antworten führt. In diesem Papier präsentieren wir eine neuartige Methode, um LLMs in Mehrrunden-Dialogen anzugreifen, genannt CoA (Chain of Attack). CoA ist eine semantisch gesteuerte kontextuale Multi-Turn-Angriffs-Methode, die die Angriffsstrategie adaptiv anpasst, basierend auf kontextuellem Feedback und semantischer Relevanz während der Mehrrunden-Dialoge mit einem großen Modell, was dazu führt, dass das Modell unangemessene oder schädliche Inhalte generiert. Wir evaluieren CoA auf verschiedenen LLMs und Datensätzen und zeigen, dass es effektiv die Verwundbarkeiten von LLMs aufdecken kann und bestehende Angriffsarten übertrifft. Unsere Arbeit bietet eine neue Perspektive und ein Werkzeug für den Angriff und die Verteidigung von LLMs und trägt zur Sicherheits- und ethischen Bewertung von Dialogsystemen bei.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper