February 26, 2024Open Access

Acht Methoden zur Bewertung von robustem Unlearning in LLMs

Key Points

Key points are not available for this paper at this time.

Abstract

Maschinen-Unlearning kann nützlich sein, um schädliche Fähigkeiten und memorisierten Text aus großen Sprachmodellen (LLMs) zu entfernen, aber es gibt noch keine standardisierten Methoden zur rigorosen Bewertung. In diesem Papier untersuchen wir zunächst Techniken und Einschränkungen bestehender unlearning Bewertungen. Zweitens wenden wir einen umfassenden Satz von Tests für die Robustheit und Wettbewerbsfähigkeit des Unlearning im "Who's Harry Potter" (WHP) Modell von Eldan und Russinovich (2023) an. Während WHPs Unlearning gut generalisiert, wenn es mit der "Familiarity"-Metrik von Eldan und Russinovich bewertet wird, stellen wir fest, dass i) höhere als die Basislinie Mengen von Wissen zuverlässig extrahiert werden können, ii) WHP bei Harry Potter Q&A-Aufgaben gleichwertig mit dem Originalmodell abschneidet, iii) es latentes Wissen vergleichbar mit dem Originalmodell repräsentiert, und iv) es ein kollaterales Unlearning in verwandten Bereichen gibt. Insgesamt heben unsere Ergebnisse die Bedeutung einer umfassenden Unlearning-Bewertung hervor, die ad-hoc Metriken vermeidet.

Acht Methoden zur Bewertung von robustem Unlearning in LLMs

Key Points

Abstract

Cite This Study

Also Consider

Also Consider