Key points are not available for this paper at this time.
ओपनएआई के GPT श्रृंखला, एंथ्रोपिक के क्लॉड, और मेटा के LLama जैसे बड़े भाषा मॉडल (LLMs) ने पाठ उत्पादन में अद्भुत क्षमताएँ दिखाई हैं। हालाँकि, उनके विषैले संकेतों के प्रति संवेदनशीलता महत्वपूर्ण सुरक्षा चुनौतियाँ प्रस्तुत करती है। यह पेपर संरेखण तकनीकों की जांच करता है, जिसमें सुपरवाइज्ड फाइन-ट्यूनिंग (SFT) और मानव प्रतिक्रिया से सुदृढीकरण शिक्षण (RLHF) शामिल हैं, ताकि इन जोखिमों को कम किया जा सके। हम नौ LLMs पर नकारात्मक पैटर्नों का अनुभवात्मक अध्ययन करते हैं, यह दर्शाते हुए कि समान नकारात्मक पैटर्न वाले मॉडल, जैसे कि क्लॉड3, उच्च सुरक्षा प्रदर्शित करते हैं। इन निष्कर्षों के आधार पर, हम LLM सुरक्षा को बढ़ाने के लिए आत्म-डिस्टिलिंग और क्रॉस-मॉडल डिस्टिलिंग विधियाँ प्रस्तावित करते हैं। हमारे परिणाम दिखाते हैं कि इन विधियों से नकारात्मक दरें महत्वपूर्ण रूप से बेहतर होती हैं और असुरक्षित सामग्री में कमी आती है, क्रॉस-मॉडल डिस्टिलिंग क्लॉड3 के 94.51% के करीब नकारात्मक दरें प्राप्त करता है। ये निष्कर्ष विषैले संकेतों के खिलाफ LLMs की सुरक्षा में डिस्टिलेशन-आधारित संरेखण की संभावनाओं को उजागर करते हैं।
ली एट अल। (सोम,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: