Key points are not available for this paper at this time.
Maschinen-Unlearning kann nützlich sein, um schädliche Fähigkeiten und memorisierten Text aus großen Sprachmodellen (LLMs) zu entfernen, aber es gibt noch keine standardisierten Methoden zur rigorosen Bewertung. In diesem Papier untersuchen wir zunächst Techniken und Einschränkungen bestehender unlearning Bewertungen. Zweitens wenden wir einen umfassenden Satz von Tests für die Robustheit und Wettbewerbsfähigkeit des Unlearning im "Who's Harry Potter" (WHP) Modell von Eldan und Russinovich (2023) an. Während WHPs Unlearning gut generalisiert, wenn es mit der "Familiarity"-Metrik von Eldan und Russinovich bewertet wird, stellen wir fest, dass i) höhere als die Basislinie Mengen von Wissen zuverlässig extrahiert werden können, ii) WHP bei Harry Potter Q&A-Aufgaben gleichwertig mit dem Originalmodell abschneidet, iii) es latentes Wissen vergleichbar mit dem Originalmodell repräsentiert, und iv) es ein kollaterales Unlearning in verwandten Bereichen gibt. Insgesamt heben unsere Ergebnisse die Bedeutung einer umfassenden Unlearning-Bewertung hervor, die ad-hoc Metriken vermeidet.
Lynch et al. (Mon,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: