Key points are not available for this paper at this time.
التعديل في الصندوق الأسود هو واجهة ناشئة لتكييف نماذج اللغة المتطورة مع احتياجات المستخدمين. ومع ذلك، قد تسمح هذه الوصولات أيضًا للجهات الخبيثة بزعزعة أمان النموذج. لإظهار التحدي في الدفاع عن واجهات التعديل، نقدم التعديل الضار الخفي، وهي طريقة لتقويض أمان النموذج عبر التعديل مع تجنب الكشف. ت construct طريقتنا مجموعة بيانات ضارة حيث يبدو كل نقطة بيانات فردية غير ضارة، لكن التعديل على مجموعة البيانات يعلم النموذج الاستجابة لطلبات ضارة مشفرة مع استجابات ضارة مشفرة. عند تطبيقه على GPT-4، ينتج عن طريقتنا نموذج معدل يتصرف بناءً على تعليمات ضارة بنسبة 99% من الوقت ويتجنب الكشف بواسطة آليات الدفاع مثل فحص مجموعة البيانات، وتقييمات الأمان، ومصنفات المدخلات/المخرجات. تشكك نتائجنا في ما إذا كان يمكن تأمين وصول التعديل في الصندوق الأسود ضد الخصوم المتقدمين.
درس حلاوي وآخرون (الجمعه) هذا السؤال.