February 8, 2024Open Access

تقييم شامل لهجمات الاختراق على النماذج اللغوية الكبيرة

Key Points

Key points are not available for this paper at this time.

Abstract

أدى سوء استخدام النماذج اللغوية الكبيرة (LLMs) إلى إثارة قلق واسع النطاق. وللتعامل مع هذه المشكلة، تم اتخاذ تدابير لضمان توافق النماذج اللغوية الكبيرة مع الأخلاقيات الاجتماعية. ومع ذلك، كشفت الاكتشافات الحديثة عن ثغرة مقلقة تتجاوز تدابير الحماية لهذه النماذج، تعرف بهجمات الاختراق (jailbreak attacks). من خلال تطبيق تقنيات مثل استخدام سيناريوهات لعب الأدوار، أو الأمثلة العدائية، أو التلاعب الخفي بأهداف السلامة كرسالة إدخال، يمكن للنماذج اللغوية الكبيرة أن تنتج استجابات غير ملائمة أو حتى ضارة. وعلى الرغم من أن الباحثين قد درسوا عدة فئات لهجمات الاختراق، إلا أنهم فعلوا ذلك بشكل معزول. لسد هذه الفجوة، نقدم أول قياس واسع النطاق لمختلف طرق هجمات الاختراق. نركز على 13 طريقة اختراق متطورة من أربع فئات، و160 سؤالًا من 16 فئة انتهاك، وستة نماذج لغوية كبيرة شائعة. تظهر نتائجنا التجريبية الشاملة أن رسائل الاختراق المحسنة تحقق باستمرار أعلى معدلات نجاح الهجوم، كما تبدي متانة عبر نماذج لغوية كبيرة مختلفة. بعض مجموعات بيانات رسائل الاختراق المتاحة عبر الإنترنت يمكنها أيضًا تحقيق معدلات نجاح عالية على العديد من النماذج اللغوية الكبيرة مثل ChatGLM3 وGPT-3.5 وPaLM2. بالرغم من ادعاءات العديد من المؤسسات بخصوص تغطية فئات الانتهاك في سياساتها، تظل معدلات نجاح الهجمات من هذه الفئات مرتفعة، مما يشير إلى تحديات التوفيق الفعال بين سياسات النماذج اللغوية الكبيرة والقدرة على التصدي لهجمات الاختراق. نناقش أيضًا التوازن بين أداء الهجوم والكفاءة، ونظهر أن قابلية انتقال رسائل الاختراق لا تزال قابلة للتطبيق، مما يجعلها خيارًا للنماذج المغلقة (black-box models). بشكل عام، يبرز بحثنا ضرورة تقييم طرق مختلفة للاختراق. نأمل أن توفر دراستنا رؤى للأبحاث المستقبلية حول هجمات الاختراق وأن تكون أداة مرجعية لتقييمها للممارسين.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper