Key points are not available for this paper at this time.
مع تزايد دمج أنظمة الذكاء الاصطناعي مثل نماذج اللغة في عمليات اتخاذ القرار التي تؤثر على حياة الناس، من الضروري ضمان أن هذه الأنظمة تتمتع بتفكير أخلاقي سليم. لاختبار ما إذا كانت هذه الأنظمة كذلك، نحتاج إلى تطوير تقييمات منهجية. نقدم إطار عمل يستخدم نموذج لغة لترجمة الرسوم البيانية السببية التي تلتقط الجوانب الرئيسية للمعضلات الأخلاقية إلى قوالب استجابة. من خلال هذا الإطار، قمنا بتوليد مجموعة كبيرة ومتنوعة من المعضلات الأخلاقية -- معيار OffTheRails -- تتكون من 50 سيناريو و400 عنصر اختبار فريد. جمعنا أحكاماً حول الإذن الأخلاقي والنوايا من المشاركين البشر لمجموعة فرعية من عناصرنا وقارنّا هذه الأحكام بتلك التي قدمتها نموذجين لغويين (GPT-4 وClaude-2) عبر ثمانية شروط. نجد أن المعضلات الأخلاقية التي يكون فيها الضرر وسيلة ضرورية (مقارنةً بتأثير جانبي) أدت إلى درجات تصريح أقل وتقييمات نية أعلى لكل من المشاركين ونماذج اللغة. وقد لوحظ نفس النمط بالنسبة للنتائج الضارة القابلة للتجنب مقابل غير القابلة للتجنب. ومع ذلك، لم يكن هناك تأثير واضح فيما إذا كان الضرر ناجماً عن فعل وكيل مقابل أن يكون ناتجاً عن عدم التصرف. نناقش قيود أنبوب توليد الاستجابة لدينا والفرص لتحسين السيناريوهات لزيادة قوة التأثيرات التجريبية.
درس فرانكن وآخرون (الثلاثاء) هذا السؤال.