تكشف هجمات استنتاج العضوية (MIAs) ما إذا كانت بيانات معينة قد استخدمت لتدريب نماذج تعلم الآلة، وتعتبر أدوات مهمة لتدقيق الخصوصية وتقييم الامتثال. أظهرت الدراسات الحديثة أن MIAs أداءها أفضل قليلاً فقط من التخمين العشوائي ضد نماذج اللغة الكبيرة، مما يشير إلى أن الأساليب الحديثة للتدريب المسبق مع مجموعات بيانات ضخمة قد تكون خالية من مخاطر تسرب الخصوصية. تقدم دراستنا منظورًا مكملًا لهذه النتائج من خلال استكشاف كيف يمكن أن يوفر فحص تمثيلات نماذج اللغة الكبيرة الداخلية، بدلاً من مجرد مخرجاتها، رؤى إضافية حول إشارات استنتاج العضوية المحتملة. إطار عملنا، memTrace، يتبع ما نسميه فتات عصبي يستخرج إشارات إعلامية من حالات التحويل المخفية وأنماط الانتباه بينما تعالج تسلسلات مرشحة. من خلال تحليل ديناميات التمثيل على مستوى الطبقة، وخصائص توزيع الانتباه، وأنماط الانتقال عبر الطبقات، نكتشف بصمات الذاكرة المحتملة التي قد لا تلتقطها الأساليب التقليدية المعتمدة على الخسارة. هذا النهج يحقق كشفًا قويًا عن العضوية عبر عدة عائلات نموذجية محققًا متوسط درجات AUC تبلغ 0.85 على معايير MIA الشائعة. تشير نتائجنا إلى أن سلوكيات النموذج الداخلية يمكن أن تكشف جوانب من تعرض بيانات التدريب حتى عندما تبدو إشارات الناتج محمية، مما يبرز الحاجة إلى مزيد من البحث في خصوصية العضوية وتطوير تقنيات التدريب القابلة للحفاظ على الخصوصية والمتينة لنماذج اللغة الكبيرة.
درس مخيخة وآخرون (الجمعة) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: