مع استمرار تطور النماذج اللغوية الكبيرة (LLMs)، من الضروري تقييم التهديدات الأمنية والثغرات التي قد تظهر أثناء مرحلة التدريب وبعد نشر النماذج. يسعى هذا المسح إلى تعريف وتصنيف الهجمات المختلفة التي تستهدف النماذج اللغوية الكبيرة، مميزًا بين تلك التي تحدث أثناء مرحلة التدريب وتلك التي تؤثر على النماذج المدربة بالفعل. تُقدم تحليلًا شاملاً لهذه الهجمات، إلى جانب استكشاف آليات الدفاع المصممة للتقليل من مثل هذه التهديدات. تُصنف الدفاعات إلى فئتين رئيسيتين: الدفاعات القائمة على الوقاية والدفاعات القائمة على الكشف. علاوة على ذلك، يلخص مسحنا الهجمات المحتملة واستراتيجيات الدفاع المقابلة لها. كما يوفر تقييمًا لفعالية آليات الدفاع المعروفة تجاه التهديدات الأمنية المختلفة. يهدف مسحنا إلى تقديم إطار منظم لتأمين النماذج اللغوية الكبيرة، مع تحديد المجالات التي تتطلب المزيد من البحث لتحسين وتعزيز الدفاعات ضد التحديات الأمنية الناشئة.
درست أجويليرا-مارتينيز وزملاؤها (الجمعة) هذا السؤال.