शील पूर्वाग्रह उन स्वचालित मानसिक प्रक्रियाओं को संदर्भित करता है जो धारणाओं, निर्णयों, और व्यवहारों को आकार देती हैं। LLMs में "शील पूर्वाग्रह" पर पिछला शोध मुख्य रूप से परिणामों पर केंद्रित था, न कि उन प्रक्रियाओं पर जो परिणामों के पीछे हैं। हम तर्क मॉडल इम्प्लिसिट एसोसिएशन टेस्ट (RM-IAT) प्रस्तुत करते हैं ताकि तर्क मॉडलों में शील पूर्वाग्रह-जैसी प्रक्रिया का अध्ययन किया जा सके, जो जटिल कार्यों के लिए कदम-दर-कदम तर्क का उपयोग करने वाले LLMs हैं। RM-IAT का उपयोग करते हुए, हम पाते हैं कि o3-mini, DeepSeek-R1, gpt-oss-20b, और Qwen-3 8B जैसे तर्क मॉडल लगातार एसोसिएशन-असंगत कार्यों पर एसोसिएशन-संगत कार्यों की तुलना में अधिक तर्क टोकन खर्च करते हैं, जो कि प्रतिकूल-स्टीरियोटाइपिक जानकारी को संसाधित करते समय अधिक गणनात्मक प्रयास का सुझाव देते हैं। इसके विपरीत, Claude 3.7 Sonnet ने उलटे या असंगत पैटर्न प्रदर्शित किए, जो संभवतः एम्बेडेड सुरक्षा तंत्र के कारण हैं जो सामाजिक रूप से संवेदनशील एसोसिएशन को चिह्नित या अस्वीकार करते हैं। ये भिन्न व्यवहार उन महत्वपूर्ण अंतराल को उजागर करते हैं कि कैसे संरेखण और सुरक्षा प्रक्रियाएँ मॉडल के तर्क को आकार देती हैं। जैसे-जैसे तर्क मॉडल वास्तविक-समय निर्णय लेने में अधिकाधिक एकीकृत होते जाते हैं, उनके शील पूर्वाग्रह-जैसे पैटर्न को समझना और यह कि संरेखण विधियाँ उन पर कैसे प्रभाव डालती हैं, निष्पक्ष और विश्वसनीय AI सिस्टम सुनिश्चित करने के लिए महत्वपूर्ण है।
Lee और अन्य (शुक्रवार,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: