Key points are not available for this paper at this time.
نظهر أن نماذج اللغة الكبيرة (LLMs) تُظهر توجهات قيمة متسقة على الرغم من اتخاذ شخصيات متنوعة، كاشفة عن قصور دائم في ردود أفعالها يبقى مستقرًا عبر تنوع الأدوار التي يتم حثها على اتخاذها. لاستكشاف هذه الظاهرة بشكل منهجي، نقدم منهجية اللعب بالأدوار على نطاق واسع، التي تتضمن حث نماذج اللغة الكبيرة بشخصيات عشوائية ومتنوعة وتحليل الاتجاهات الكلية لردودها. على عكس الأعمال السابقة التي تغذي ببساطة هذه الأسئلة إلى نماذج اللغة الكبيرة كما لو كانت تختبر مواضيع بشرية، تشير منهجيتنا للعب بالأدوار على نطاق واسع إلى ميول ذاتية بطابع منهجي وقابل للتوسع من خلال: (1) حث النموذج على التصرف بشخصيات عشوائية مختلفة و(2) طرح نفس السؤال عدة مرات لكل شخصية عشوائية. تكشف هذه الطريقة عن أنماط متسقة في ردود نماذج اللغة الكبيرة عبر سيناريوهات لعب أدوار متنوعة، مما يشير إلى ميول متأصلة مشفرة بعمق. تسهم نتائجنا في النقاش حول مواءمة القيم في النماذج الأساسية وتوضح فعالية منهجية اللعب بالأدوار على نطاق واسع كأداة تشخيصية لكشف التحيزات المشفرة في نماذج اللغة الكبيرة.
درس لي وآخرون (الجمعة) هذا السؤال.