What question did this study set out to answer?

يبحث هذا البحث فيما إذا كانت نماذج اللغة الكبيرة تظهر انحيازات إجرائية مشابهة لتلك الموجودة في الأحكام القانونية البشرية.

March 19, 2026Open Access

الانحيازات في القرارات القانونية في GPT: مقارنة مع الحكم البشري

Key Points

يبحث هذا البحث فيما إذا كانت نماذج اللغة الكبيرة تظهر انحيازات إجرائية مشابهة لتلك الموجودة في الأحكام القانونية البشرية.
تم إجراء مهمة تقييم قانوني محكمة مع GPT-4o وGPT-5.2.
تم التلاعب بترتيب الأدلة والحكم الوسيط المطلوب في قضايا جنائية مبسطة.
تمت مقارنة استجابات النماذج بالأحكام البشرية من دراسات سابقة.
تم استكشاف استراتيجيات هندسة الإرشادات لتقليل الانحيازات.
أظهر GPT-4o تأثيرات ترتيب ملحوظة وانحيازًا في التقييم يختلف عن البشر.
عرض GPT-5.2 انحيازات مماثلة ولكن مخففة.
كان لهندسة الإرشادات تأثير محدود وغير مستقر، وفشلت في إزالة الانحيازات.

Abstract

من المتوقع أن تفي عمليات اتخاذ القرار القانوني بمعايير عالية من الاتساق والعقلانية، ومع ذلك فمن المعروف أن الأحكام البشرية في هذا المجال تتأثر بعوامل إجرائية مثل ترتيب الأدلة والتقييمات الوسيطة. أظهرت أعمال حديثة أن حتى المهنيين القانونيين، بما في ذلك القضاة، عرضة لمثل هذه الانحيازات عند تقييم القضايا الجنائية. وهذا يثير سؤالاً حاسماً: هل نماذج اللغة الكبيرة، التي يتم اقتراحها بشكل متزايد كأدوات دعم اتخاذ القرار في السياقات القانونية، تظهر انحيازات إجرائية مماثلة؟ وإذا كان الأمر كذلك، فهل يمكن التخفيف من هذه الانحيازات؟ لمعالجة هذا السؤال، اختبرنا GPT-4o وGPT-5.2 باستخدام مهمة تقييم قانونية محكمة تم تعديلها من أبحاث سابقة بشرية. شملت المهمة قضايا جنائية مبسطة حيث قمنا بالتلاعب بشكل منهجي (1) بترتيب الأدلة الإدانة والتبرئة و (2) ما إذا كان يتطلب حكمًا وسيطًا بالذنب قبل اتخاذ القرار النهائي. تمت مقارنة استجابات النموذج مباشرة بأحكام بشرية من الدراسة الأصلية. كما بحثنا ما إذا كانت استراتيجيات هندسة الإرشادات، المستندة إلى أفضل الممارسات الحالية، يمكن أن تقلل من الانحيازات الملحوظة. أظهر GPT-4o تأثيرات ترتيب قوية وشكلاً من انحياز التقييم، رغم أن الأخير اختلف هيكليًا عن نمط البشر. وأظهر GPT-5.2 تأثيرات مماثلة ولكنها مخففة. عبر كلا النموذجين، كان لهندسة الإرشادات تأثير محدود وغير متسق، وفشلت في إزالة الحساسية الإجرائية بشكل موثوق. تشير هذه النتائج إلى أن نماذج اللغة الكبيرة المتقدمة لا تزال عرضة لتأثيرات إجرائية لا علاقة لها بالمعايير. وعلى نطاق أوسع، تنصح بالحذر في التعامل مع نماذج اللغة الكبيرة كنظم دعم اتخاذ قرار عقلانية أو مقاومة للانحياز بشكل متأصل في المجالات المهنية ذات المخاطر العالية مثل القانون.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper