December 6, 2025Open Access

تجاوز حدود أمان نماذج اللغة الكبيرة من خلال كسر القيود بواسطة أدوار تفاعلية

Key Points

تكشف الأطر الآلية عن ثغرات كبيرة في آليات التوافق الأمني.
أظهرت التجارب أن RoleBreaker حققت معدل نجاح متوسط لكسر القيود بلغ 87.3%.
يسلط النهج الضوء على أهمية تحليل التمثيل والبحث التكيفي لتحقيق نتائج محسنة.
تشير نتائج كسر القيود من النماذج مفتوحة المصدر إلى النماذج مغلقة المصدر إلى إمكانية قوية لنقل النموذج.

Abstract

يمكن لنماذج اللغة الكبيرة (LLMs) تبني أدوار مختلفة من خلال توجيه التعليمات، مما يتم تمكينه من خلال التدريب المبدئي على مجموعات بيانات متنوعة والتوافق مع التعليمات. تحاول آليات التوافق الأمني تحديد مساعد مفيد وصادق وغير مؤذي لتوجيه سلوكها. ومع ذلك، يمكن أن تتجاوز إعدادات الأدوار المحددة هذه الحواجز، مما يحفز نماذج اللغة الكبيرة للرد على استفسارات ضارة. في هذه الدراسة، نحدد إعدادات الأدوار التي تؤدي إلى توليد نماذج اللغة الكبيرة لاستجابات ضارة، والتي تساهم في تحسين موثوقيتها. نقوم بتصميم إطار عمل آلي لكسر القيود، يُسمى RoleBreaker، الذي يقوم بتحسين مطالبات التفاعل من خلال تحليل التمثيل والبحث التكيفي. تظهر التجارب على 7 نماذج لغة مفتوحة المصدر أن RoleBreaker تحقق معدل نجاح متوسط لكسر القيود يبلغ 87.3% مع 4.0 محاولات، متفوقًا على الأساليب الحالية. علاوة على ذلك، من خلال تلخيص تجارب كسر القيود وتطبيقها على نماذج تجارية مغلقة المصدر (GPT-4.1، GLM-4، Gemini-2.0)، نحقق معدل نجاح متوسط لكسر القيود يبلغ 84.3% مع 4.3 محاولات. تكشف هذه النتائج عن ثغرات في آليات التوافق الحالية وتوضح إمكانية نقل أسلوبنا.

تجاوز حدود أمان نماذج اللغة الكبيرة من خلال كسر القيود بواسطة أدوار تفاعلية

Key Points

Abstract

Cite This Study

Also Consider

Also Consider