June 17, 2024Open Access

स्वतः और क्रॉस-मॉडल डिस्टिलेशन LLMs के लिए: नकारात्मक पैटर्न संरेखण के लिए प्रभावी विधियाँ

Key Points

Key points are not available for this paper at this time.

Abstract

ओपनएआई के GPT श्रृंखला, एंथ्रोपिक के क्लॉड, और मेटा के LLama जैसे बड़े भाषा मॉडल (LLMs) ने पाठ उत्पादन में अद्भुत क्षमताएँ दिखाई हैं। हालाँकि, उनके विषैले संकेतों के प्रति संवेदनशीलता महत्वपूर्ण सुरक्षा चुनौतियाँ प्रस्तुत करती है। यह पेपर संरेखण तकनीकों की जांच करता है, जिसमें सुपरवाइज्ड फाइन-ट्यूनिंग (SFT) और मानव प्रतिक्रिया से सुदृढीकरण शिक्षण (RLHF) शामिल हैं, ताकि इन जोखिमों को कम किया जा सके। हम नौ LLMs पर नकारात्मक पैटर्नों का अनुभवात्मक अध्ययन करते हैं, यह दर्शाते हुए कि समान नकारात्मक पैटर्न वाले मॉडल, जैसे कि क्लॉड3, उच्च सुरक्षा प्रदर्शित करते हैं। इन निष्कर्षों के आधार पर, हम LLM सुरक्षा को बढ़ाने के लिए आत्म-डिस्टिलिंग और क्रॉस-मॉडल डिस्टिलिंग विधियाँ प्रस्तावित करते हैं। हमारे परिणाम दिखाते हैं कि इन विधियों से नकारात्मक दरें महत्वपूर्ण रूप से बेहतर होती हैं और असुरक्षित सामग्री में कमी आती है, क्रॉस-मॉडल डिस्टिलिंग क्लॉड3 के 94.51% के करीब नकारात्मक दरें प्राप्त करता है। ये निष्कर्ष विषैले संकेतों के खिलाफ LLMs की सुरक्षा में डिस्टिलेशन-आधारित संरेखण की संभावनाओं को उजागर करते हैं।

Read Full Paperexternally

AI से पूछें

Bookmark

View Full Paper