April 16, 2024Open Access

توليد معضلات إجرائية لتقييم التفكير الأخلاقي لدى البشر ونماذج اللغة

Key Points

Key points are not available for this paper at this time.

Abstract

مع تزايد دمج أنظمة الذكاء الاصطناعي مثل نماذج اللغة في عمليات اتخاذ القرار التي تؤثر على حياة الناس، من الضروري ضمان أن هذه الأنظمة تتمتع بتفكير أخلاقي سليم. لاختبار ما إذا كانت هذه الأنظمة كذلك، نحتاج إلى تطوير تقييمات منهجية. نقدم إطار عمل يستخدم نموذج لغة لترجمة الرسوم البيانية السببية التي تلتقط الجوانب الرئيسية للمعضلات الأخلاقية إلى قوالب استجابة. من خلال هذا الإطار، قمنا بتوليد مجموعة كبيرة ومتنوعة من المعضلات الأخلاقية -- معيار OffTheRails -- تتكون من 50 سيناريو و400 عنصر اختبار فريد. جمعنا أحكاماً حول الإذن الأخلاقي والنوايا من المشاركين البشر لمجموعة فرعية من عناصرنا وقارنّا هذه الأحكام بتلك التي قدمتها نموذجين لغويين (GPT-4 وClaude-2) عبر ثمانية شروط. نجد أن المعضلات الأخلاقية التي يكون فيها الضرر وسيلة ضرورية (مقارنةً بتأثير جانبي) أدت إلى درجات تصريح أقل وتقييمات نية أعلى لكل من المشاركين ونماذج اللغة. وقد لوحظ نفس النمط بالنسبة للنتائج الضارة القابلة للتجنب مقابل غير القابلة للتجنب. ومع ذلك، لم يكن هناك تأثير واضح فيما إذا كان الضرر ناجماً عن فعل وكيل مقابل أن يكون ناتجاً عن عدم التصرف. نناقش قيود أنبوب توليد الاستجابة لدينا والفرص لتحسين السيناريوهات لزيادة قوة التأثيرات التجريبية.

توليد معضلات إجرائية لتقييم التفكير الأخلاقي لدى البشر ونماذج اللغة

Key Points

Abstract

Cite This Study