June 28, 2024Open Access

التعديل الضار الخفي: التحديات في حماية تكيف نماذج اللغة الكبيرة

Key Points

Key points are not available for this paper at this time.

Abstract

التعديل في الصندوق الأسود هو واجهة ناشئة لتكييف نماذج اللغة المتطورة مع احتياجات المستخدمين. ومع ذلك، قد تسمح هذه الوصولات أيضًا للجهات الخبيثة بزعزعة أمان النموذج. لإظهار التحدي في الدفاع عن واجهات التعديل، نقدم التعديل الضار الخفي، وهي طريقة لتقويض أمان النموذج عبر التعديل مع تجنب الكشف. ت construct طريقتنا مجموعة بيانات ضارة حيث يبدو كل نقطة بيانات فردية غير ضارة، لكن التعديل على مجموعة البيانات يعلم النموذج الاستجابة لطلبات ضارة مشفرة مع استجابات ضارة مشفرة. عند تطبيقه على GPT-4، ينتج عن طريقتنا نموذج معدل يتصرف بناءً على تعليمات ضارة بنسبة 99% من الوقت ويتجنب الكشف بواسطة آليات الدفاع مثل فحص مجموعة البيانات، وتقييمات الأمان، ومصنفات المدخلات/المخرجات. تشكك نتائجنا في ما إذا كان يمكن تأمين وصول التعديل في الصندوق الأسود ضد الخصوم المتقدمين.

التعديل الضار الخفي: التحديات في حماية تكيف نماذج اللغة الكبيرة

Key Points

Abstract

Cite This Study