March 5, 2024Open Access

Der WMDP-Benchmark: Messen und Reduzieren von böswilliger Nutzung durch Unlearning

Key Points

Key points are not available for this paper at this time.

Abstract

Die Executive Order des Weißen Hauses zur Künstlichen Intelligenz hebt die Risiken hervor, die durch große Sprachmodelle (LLMs) entstehen, die böswillige Akteure bei der Entwicklung biologischer, cyber- und chemischer Waffen unterstützen. Um diese Risiken einer böswilligen Nutzung zu messen, entwickeln Regierungsinstitutionen und führende KI-Labore Bewertungen für gefährliche Fähigkeiten in LLMs. Aktuelle Bewertungen sind jedoch privat, was weiteren Forschungen zur Risikominderung entgegensteht. Darüber hinaus konzentrieren sie sich nur auf einige wenige, hochspezifische Wege für böswillige Nutzung. Um diese Lücken zu schließen, veröffentlichen wir öffentlich den Weapons of Mass Destruction Proxy (WMDP) Benchmark, ein Datensatz von 4.157 Multiple-Choice-Fragen, die als Proxy-Messung gefährlichen Wissens in der Bio- und Cybersicherheit sowie der chemischen Sicherheit dienen. WMDP wurde von einem Konsortium aus Wissenschaftlern und technischen Beratern entwickelt und wurde streng gefiltert, um sensible Informationen vor der öffentlichen Freigabe zu entfernen. WMDP hat zwei Funktionen: Erstens als Bewertung für gefährliches Wissen in LLMs und zweitens als Benchmark für Unlearning-Methoden zur Entfernung dieses gefährlichen Wissens. Um den Fortschritt im Unlearning zu leiten, entwickeln wir CUT, eine hochmoderne Unlearning-Methode, die auf der Kontrolle von Modellsymbolik basiert. CUT reduziert die Modellleistung auf WMDP, während es die allgemeinen Fähigkeiten in Bereichen wie Biologie und Informatik beibehält, was darauf hindeutet, dass Unlearning ein konkreter Weg zur Reduzierung böswilliger Nutzung von LLMs sein könnte. Wir veröffentlichen unseren Benchmark und Code öffentlich unter https://wmdp.ai.

Der WMDP-Benchmark: Messen und Reduzieren von böswilliger Nutzung durch Unlearning

Key Points

Abstract

Cite This Study

Also Consider

Also Consider