June 10, 2023Open Access

बड़े भाषा मॉडल-आधारित प्रणाली पर विरोधात्मक हमले और उन्हें कम करने की रणनीतियाँ: ChatGPT पर एक केस स्टडी

Key Points

Key points are not available for this paper at this time.

Abstract

मशीन लर्निंग एल्गोरिदम उन्नत सूचना प्रणालियों के विकास के अग्रिम पंक्ति में हैं। मशीन लर्निंग तकनीक में तीव्र प्रगति ने GPT-3 और ChatGPT द्वारा प्रतिनिधित्व किए गए अत्याधुनिक बड़े भाषा मॉडलों (LLMs) को व्यापक NLP कार्यों को अत्यंत उत्कृष्ट प्रदर्शन के साथ करने में सक्षम बनाया है। हालांकि, विरोधात्मक मशीन लर्निंग पर शोध इस बात पर प्रकाश डालता है कि इन बुद्धिमान प्रणालियों को और अधिक मजबूत बनाया जाना चाहिए। विरोधात्मक मशीन लर्निंग का उद्देश्य इन प्रणालियों के दुरुपयोग को रोकने के लिए हमले और रक्षा तंत्रों का मूल्यांकन करना है। ChatGPT के मामले में, विरोधात्मक प्रेरण प्रॉम्प्ट मॉडल को विषैले पाठ उत्पन्न करने के लिए प्रेरित कर सकता है, जो गंभीर सुरक्षा जोखिम उत्पन्न कर सकता है या झूठी जानकारी का प्रसार कर सकता है। इस चुनौती को हल करने के लिए, हमने सबसे पहले ChatGPT पर प्रेरित हमलों की प्रभावशीलता का विश्लेषण किया। फिर, दो प्रभावी कम करने वाले तंत्र प्रस्तावित किए गए। पहला एक प्रशिक्षण-रहित प्रीफिक्स प्रॉम्प्ट तंत्र है जो विषैले पाठों का पता लगाने और उन्हें उत्पन्न होने से रोकने के लिए है। दूसरा RoBERTa-आधारित तंत्र है जो बाह्य पहचान मॉडलों के माध्यम से चालाकीपूर्ण या भ्रमित करने वाले इनपुट पाठ की पहचान करता है। इस पद्धति की उपलब्धता प्रयोगों के माध्यम से प्रदर्शित की गई है।

AI से पूछें

Bookmark

View Full Paper