वर्तमान अनलर्निंग तकनीकें और सुरक्षा प्रशिक्षण लगातार भाषा मॉडलों से खतरनाक ज्ञान को हटाने में विफल रहते हैं। हम मूल कारणों का विश्लेषण करते हैं और एक अत्यधिक चयनात्मक तकनीक प्रस्तावित करते हैं जो मजबूत रूप से अनलर्न करती है और सामान्य प्रदर्शन को बाधित किए बिना। हम सक्रियण और मॉड्यूल आउटपुट ग्रेडिएंट्स पर PCA करते हैं ताकि सामान्य प्रतिनिधित्व वाले उपस्पेस की पहचान की जा सके, और अनलर्निंग अपडेट्स की गणना से पहले उन्हें पतित कर देते हैं। इस तरह हम सामान्य प्रतिनिधित्वों का अनलर्निंग करने से बचते हैं और केवल उन तथ्यों को लक्षित करते हैं जिन्हें अनलर्न किया गया है। जब हम Llama-3.1-8B से WMDP डेटासेट तथ्यों को अनलर्न करते हैं, तो हम जीवाणु-खतरनाक तथ्यों पर हमारे सर्वोत्तम बेसलाइन (Circuit Breakers) की तुलना में पोस्ट-आक्रमण सटीकता 80 गुना अधिक गिराते हैं और साइबर-खतरनाक तथ्यों पर 30 गुना अधिक। इसके बावजूद, हम सामान्य प्रदर्शन को 30 गुना कम बाधित करते हैं (केवल 0.1% WikiText लॉस वृद्धि), जबकि प्रति तथ्य 3 GPU-सेकंड से कम समय लेते हैं।
Sondej et al. (Mon,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: