يمكن لنماذج اللغة الكبيرة (LLMs) تبني أدوار مختلفة من خلال توجيه التعليمات، مما يتم تمكينه من خلال التدريب المبدئي على مجموعات بيانات متنوعة والتوافق مع التعليمات. تحاول آليات التوافق الأمني تحديد مساعد مفيد وصادق وغير مؤذي لتوجيه سلوكها. ومع ذلك، يمكن أن تتجاوز إعدادات الأدوار المحددة هذه الحواجز، مما يحفز نماذج اللغة الكبيرة للرد على استفسارات ضارة. في هذه الدراسة، نحدد إعدادات الأدوار التي تؤدي إلى توليد نماذج اللغة الكبيرة لاستجابات ضارة، والتي تساهم في تحسين موثوقيتها. نقوم بتصميم إطار عمل آلي لكسر القيود، يُسمى RoleBreaker، الذي يقوم بتحسين مطالبات التفاعل من خلال تحليل التمثيل والبحث التكيفي. تظهر التجارب على 7 نماذج لغة مفتوحة المصدر أن RoleBreaker تحقق معدل نجاح متوسط لكسر القيود يبلغ 87.3% مع 4.0 محاولات، متفوقًا على الأساليب الحالية. علاوة على ذلك، من خلال تلخيص تجارب كسر القيود وتطبيقها على نماذج تجارية مغلقة المصدر (GPT-4.1، GLM-4، Gemini-2.0)، نحقق معدل نجاح متوسط لكسر القيود يبلغ 84.3% مع 4.3 محاولات. تكشف هذه النتائج عن ثغرات في آليات التوافق الحالية وتوضح إمكانية نقل أسلوبنا.
درس وانغ وآخرون (سبت) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: