Key points are not available for this paper at this time.
मशीन लर्निंग एल्गोरिदम उन्नत सूचना प्रणालियों के विकास के अग्रिम पंक्ति में हैं। मशीन लर्निंग तकनीक में तीव्र प्रगति ने GPT-3 और ChatGPT द्वारा प्रतिनिधित्व किए गए अत्याधुनिक बड़े भाषा मॉडलों (LLMs) को व्यापक NLP कार्यों को अत्यंत उत्कृष्ट प्रदर्शन के साथ करने में सक्षम बनाया है। हालांकि, विरोधात्मक मशीन लर्निंग पर शोध इस बात पर प्रकाश डालता है कि इन बुद्धिमान प्रणालियों को और अधिक मजबूत बनाया जाना चाहिए। विरोधात्मक मशीन लर्निंग का उद्देश्य इन प्रणालियों के दुरुपयोग को रोकने के लिए हमले और रक्षा तंत्रों का मूल्यांकन करना है। ChatGPT के मामले में, विरोधात्मक प्रेरण प्रॉम्प्ट मॉडल को विषैले पाठ उत्पन्न करने के लिए प्रेरित कर सकता है, जो गंभीर सुरक्षा जोखिम उत्पन्न कर सकता है या झूठी जानकारी का प्रसार कर सकता है। इस चुनौती को हल करने के लिए, हमने सबसे पहले ChatGPT पर प्रेरित हमलों की प्रभावशीलता का विश्लेषण किया। फिर, दो प्रभावी कम करने वाले तंत्र प्रस्तावित किए गए। पहला एक प्रशिक्षण-रहित प्रीफिक्स प्रॉम्प्ट तंत्र है जो विषैले पाठों का पता लगाने और उन्हें उत्पन्न होने से रोकने के लिए है। दूसरा RoBERTa-आधारित तंत्र है जो बाह्य पहचान मॉडलों के माध्यम से चालाकीपूर्ण या भ्रमित करने वाले इनपुट पाठ की पहचान करता है। इस पद्धति की उपलब्धता प्रयोगों के माध्यम से प्रदर्शित की गई है।
Liu et al. (Sat,) ने इस प्रश्न का अध्ययन किया।