Key points are not available for this paper at this time.
बड़े भाषा मॉडल (LLMs) के व्यापक उपयोग से मशीन-जनित पाठ का पता लगाने के तरीकों की मांग बढ़ रही है, ताकि दुरुपयोग से बचा जा सके। हमारे अध्ययन का लक्ष्य पहचानकर्ताओं की मजबूती का तनाव परीक्षण करना है ताकि वास्तविक परिदृश्यों के तहत दुर्भावनापूर्ण हमलों के खिलाफ उनकी प्रभावशीलता का आकलन किया जा सके। हम संपादन, पैराफ्रेजिंग, प्रॉम्प्टिंग और सह-उत्पादन जैसी विभिन्न श्रेणियों के हमलों के तहत लोकप्रिय मशीन-जनित पाठ पहचानकर्ताओं की मजबूती का समग्र अध्ययन करते हैं। हमारे हमले जनरेटर LLMs तक सीमित पहुंच मानते हैं, और हम विभिन्न बजट स्तरों के तहत विभिन्न हमलों पर पहचानकर्ताओं के प्रदर्शन की तुलना करते हैं। हमारे प्रयोगों से पता चला है कि मौजूदा पहचानकर्ताओं में से लगभग कोई भी सभी हमलों के तहत मजबूत नहीं रहता, और सभी पहचानकर्ता विभिन्न रिसाव दिखाते हैं। सभी पहचानकर्ताओं का औसत प्रदर्शन सभी हमलों के तहत 35% गिर जाता है। इसके अतिरिक्त, हम इन दोषों के पीछे के कारणों की जांच करते हैं और मजबूती में सुधार के लिए प्रारंभिक समाधान प्रस्तावित करते हैं।
वांग एट अल। (सन,) ने इस प्रश्न का अध्ययन किया।