من المتوقع أن تفي عمليات اتخاذ القرار القانوني بمعايير عالية من الاتساق والعقلانية، ومع ذلك فمن المعروف أن الأحكام البشرية في هذا المجال تتأثر بعوامل إجرائية مثل ترتيب الأدلة والتقييمات الوسيطة. أظهرت أعمال حديثة أن حتى المهنيين القانونيين، بما في ذلك القضاة، عرضة لمثل هذه الانحيازات عند تقييم القضايا الجنائية. وهذا يثير سؤالاً حاسماً: هل نماذج اللغة الكبيرة، التي يتم اقتراحها بشكل متزايد كأدوات دعم اتخاذ القرار في السياقات القانونية، تظهر انحيازات إجرائية مماثلة؟ وإذا كان الأمر كذلك، فهل يمكن التخفيف من هذه الانحيازات؟ لمعالجة هذا السؤال، اختبرنا GPT-4o وGPT-5.2 باستخدام مهمة تقييم قانونية محكمة تم تعديلها من أبحاث سابقة بشرية. شملت المهمة قضايا جنائية مبسطة حيث قمنا بالتلاعب بشكل منهجي (1) بترتيب الأدلة الإدانة والتبرئة و (2) ما إذا كان يتطلب حكمًا وسيطًا بالذنب قبل اتخاذ القرار النهائي. تمت مقارنة استجابات النموذج مباشرة بأحكام بشرية من الدراسة الأصلية. كما بحثنا ما إذا كانت استراتيجيات هندسة الإرشادات، المستندة إلى أفضل الممارسات الحالية، يمكن أن تقلل من الانحيازات الملحوظة. أظهر GPT-4o تأثيرات ترتيب قوية وشكلاً من انحياز التقييم، رغم أن الأخير اختلف هيكليًا عن نمط البشر. وأظهر GPT-5.2 تأثيرات مماثلة ولكنها مخففة. عبر كلا النموذجين، كان لهندسة الإرشادات تأثير محدود وغير متسق، وفشلت في إزالة الحساسية الإجرائية بشكل موثوق. تشير هذه النتائج إلى أن نماذج اللغة الكبيرة المتقدمة لا تزال عرضة لتأثيرات إجرائية لا علاقة لها بالمعايير. وعلى نطاق أوسع، تنصح بالحذر في التعامل مع نماذج اللغة الكبيرة كنظم دعم اتخاذ قرار عقلانية أو مقاومة للانحياز بشكل متأصل في المجالات المهنية ذات المخاطر العالية مثل القانون.
درس بيسيس وآخرون (Tue,) هذا السؤال.