Key points are not available for this paper at this time.
सदस्यता अनुमान हमले (MIAs) इस बात का अनुमान लगाने का प्रयास करते हैं कि क्या कोई विशेष डेटा बिंदु लक्ष्य मॉडल के प्रशिक्षण डेटा का सदस्य है। पारंपरिक मशीन लर्निंग मॉडलों पर व्यापक शोध के बावजूद, बड़े भाषा मॉडल (LLMs) के पूर्व-प्रशिक्षण डेटा पर MIA का अध्ययन करने में सीमित कार्य हुआ है। हम Pile पर प्रशिक्षित भाषा मॉडलों (LMs) के एक सेट पर MIAs का बड़े पैमाने पर मूल्यांकन करते हैं, जो 160M से 12B पैरामीटर तक हैं। हम पाते हैं कि अधिकांश सेटिंग्स में विभिन्न LLM आकारों और डोमेन में MIAs लगभग यादृच्छिक अनुमान से बेहतर प्रदर्शन नहीं करते। हमारे आगे के विश्लेषण यह दर्शाते हैं कि यह खराब प्रदर्शन (1) एक बड़े डेटा सेट और कुछ प्रशिक्षण पुनरावृत्तियों के संयोजन और (2) सदस्यों और गैर-सदस्यों के बीच अंतर्निहित धुंधली सीमा के लिए जिम्मेदार है। हम विशिष्ट सेटिंग्स की पहचान करते हैं जहां LLMs ने सदस्यता अनुमान के प्रति संवेदनशील होने का प्रदर्शन किया है और दिखाते हैं कि ऐसी सेटिंग्स में स्पष्ट सफलता को वितरण परिवर्तनों के लिए जिम्मेदार ठहराया जा सकता है, जैसे कि जब सदस्य और गैर-सदस्य एक समानतम डोमेन से खींचे जाते हैं लेकिन विभिन्न सांख्यिकीय श्रेणियों के साथ। हम अपना कोड और डेटा एक एकीकृत बेंचमार्क पैकेज के रूप में जारी करते हैं जिसमें सभी मौजूदा MIAs शामिल हैं, जो भविष्य के काम का समर्थन करता है।
Duan et al. (Mon,) ने इस प्रश्न का अध्ययन किया।