April 16, 2024Open Access

Aufdeckung des Missbrauchspotenzials von Basis-Großsprachenmodellen durch In-Context-Lernen

Key Points

Key points are not available for this paper at this time.

Abstract

Die Open-Source-Verfügbarkeit von großen Sprachmodellen (LLMs) beschleunigt die Anwendungsentwicklung, Innovation und den wissenschaftlichen Fortschritt. Dies umfasst sowohl Basis-Modelle, die auf umfangreichen Datensätzen ohne Ausrichtung vortrainiert wurden, als auch ausgerichtete Modelle, die absichtlich darauf ausgelegt sind, mit ethischen Standards und menschlichen Werten übereinzustimmen. Im Gegensatz zu der weit verbreiteten Annahme, dass die inhärenten Einschränkungen beim Befolgen von Anweisungen bei Basis-LLMs als Schutzmechanismus gegen Missbrauch dienen, zeigt unsere Untersuchung einen kritischen Überblick über diesen Glauben auf. Durch den Einsatz sorgfältig gestalteter Demonstrationen zeigt unsere Forschung, dass Basis-LLMs böswillige Anweisungen effektiv interpretieren und ausführen könnten. Um diese Risiken systematisch zu bewerten, führen wir eine neuartige Reihe von Risikobewertungsmetriken ein. Empirische Ergebnisse zeigen, dass die Ausgaben von Basis-LLMs Risikostufen aufweisen können, die mit denen von Modellen, die für böswillige Zwecke feinabgestimmt sind, vergleichbar sind. Diese Verwundbarkeit, die weder spezielles Wissen noch Schulung erfordert, kann von fast jedem manipuliert werden, was das erhebliche Risiko und den dringenden Bedarf an sofortiger Aufmerksamkeit für die Sicherheitsprotokolle von Basis-LLMs hervorhebt.

Aufdeckung des Missbrauchspotenzials von Basis-Großsprachenmodellen durch In-Context-Lernen

Key Points

Abstract

Cite This Study

Also Consider

Also Consider