What type of study is this?

This is a Quantitative Study study.

October 3, 2025Open Access

فتات عصبي: هجمات استنتاج العضوية على نماذج اللغة الكبيرة من خلال تحليل الحالات الخفية ونمط الانتباه

Key Points

يكشف هذا النهج عن تعرض العضوية في نماذج اللغة الكبيرة، حتى عندما تبدو المخرجات محمية.
حقق الأسلوب درجة AUC متوسطة مثيرة للإعجاب تبلغ 0.85 على عدة معايير MIA، مما يدل على قدرة كشف قوية.
يمكن أن يؤدي تحليل ديناميات الحالة المخفية وأنماط الانتباه إلى كشف مخاطر الخصوصية التي تم تجاهلها سابقًا بواسطة الأساليب التقليدية.
يؤكد هذا العمل على ضرورة تحقيق تقدم في تقنيات الحفاظ على الخصوصية لتدريب نماذج اللغة الكبيرة.

Abstract

تكشف هجمات استنتاج العضوية (MIAs) ما إذا كانت بيانات معينة قد استخدمت لتدريب نماذج تعلم الآلة، وتعتبر أدوات مهمة لتدقيق الخصوصية وتقييم الامتثال. أظهرت الدراسات الحديثة أن MIAs أداءها أفضل قليلاً فقط من التخمين العشوائي ضد نماذج اللغة الكبيرة، مما يشير إلى أن الأساليب الحديثة للتدريب المسبق مع مجموعات بيانات ضخمة قد تكون خالية من مخاطر تسرب الخصوصية. تقدم دراستنا منظورًا مكملًا لهذه النتائج من خلال استكشاف كيف يمكن أن يوفر فحص تمثيلات نماذج اللغة الكبيرة الداخلية، بدلاً من مجرد مخرجاتها، رؤى إضافية حول إشارات استنتاج العضوية المحتملة. إطار عملنا، memTrace، يتبع ما نسميه فتات عصبي يستخرج إشارات إعلامية من حالات التحويل المخفية وأنماط الانتباه بينما تعالج تسلسلات مرشحة. من خلال تحليل ديناميات التمثيل على مستوى الطبقة، وخصائص توزيع الانتباه، وأنماط الانتقال عبر الطبقات، نكتشف بصمات الذاكرة المحتملة التي قد لا تلتقطها الأساليب التقليدية المعتمدة على الخسارة. هذا النهج يحقق كشفًا قويًا عن العضوية عبر عدة عائلات نموذجية محققًا متوسط درجات AUC تبلغ 0.85 على معايير MIA الشائعة. تشير نتائجنا إلى أن سلوكيات النموذج الداخلية يمكن أن تكشف جوانب من تعرض بيانات التدريب حتى عندما تبدو إشارات الناتج محمية، مما يبرز الحاجة إلى مزيد من البحث في خصوصية العضوية وتطوير تقنيات التدريب القابلة للحفاظ على الخصوصية والمتينة لنماذج اللغة الكبيرة.

فتات عصبي: هجمات استنتاج العضوية على نماذج اللغة الكبيرة من خلال تحليل الحالات الخفية ونمط الانتباه

Key Points

Abstract

Cite This Study

Also Consider

Also Consider