February 18, 2024Open Access

अवरोध: मशीन-जनित पाठ पहचानकर्ताओं की मजबूती का तनाव परीक्षण हमलों के तहत

Key Points

Key points are not available for this paper at this time.

Abstract

बड़े भाषा मॉडल (LLMs) के व्यापक उपयोग से मशीन-जनित पाठ का पता लगाने के तरीकों की मांग बढ़ रही है, ताकि दुरुपयोग से बचा जा सके। हमारे अध्ययन का लक्ष्य पहचानकर्ताओं की मजबूती का तनाव परीक्षण करना है ताकि वास्तविक परिदृश्यों के तहत दुर्भावनापूर्ण हमलों के खिलाफ उनकी प्रभावशीलता का आकलन किया जा सके। हम संपादन, पैराफ्रेजिंग, प्रॉम्प्टिंग और सह-उत्पादन जैसी विभिन्न श्रेणियों के हमलों के तहत लोकप्रिय मशीन-जनित पाठ पहचानकर्ताओं की मजबूती का समग्र अध्ययन करते हैं। हमारे हमले जनरेटर LLMs तक सीमित पहुंच मानते हैं, और हम विभिन्न बजट स्तरों के तहत विभिन्न हमलों पर पहचानकर्ताओं के प्रदर्शन की तुलना करते हैं। हमारे प्रयोगों से पता चला है कि मौजूदा पहचानकर्ताओं में से लगभग कोई भी सभी हमलों के तहत मजबूत नहीं रहता, और सभी पहचानकर्ता विभिन्न रिसाव दिखाते हैं। सभी पहचानकर्ताओं का औसत प्रदर्शन सभी हमलों के तहत 35% गिर जाता है। इसके अतिरिक्त, हम इन दोषों के पीछे के कारणों की जांच करते हैं और मजबूती में सुधार के लिए प्रारंभिक समाधान प्रस्तावित करते हैं।

अवरोध: मशीन-जनित पाठ पहचानकर्ताओं की मजबूती का तनाव परीक्षण हमलों के तहत

Key Points

Abstract

Cite This Study