Key points are not available for this paper at this time.
さまざまなダウンストリームタスクでの印象的なパフォーマンスを持つ大規模言語モデル(LLM)は、採用や推薦システムのようなプロダクションパイプラインに広く統合されています。自然言語データで訓練されたモデルの既知の問題は、人間のバイアスの存在であり、システムの公平性に影響を与える可能性があります。本論文は、職業の意思決定における性別ステレオタイプに関するLLMの行動を調査します。私たちのフレームワークは、マルチラウンドの質問応答を通じてLLMの行動における性別ステレオタイプの存在を調査し、定量化するように設計されています。以前の研究に触発され、権威ある機関が発表した標準的な職業分類ナレッジベースを活用してデータセットを構築しました。我々は3つのLLM(RoBERTa-large、GPT-3.5-turbo、およびLlama2-70b-chat)をテストし、すべてのモデルが人間のバイアスに類似した性別ステレオタイプを示すことを発見しましたが、好みは異なりました。GPT-3.5-turboとLlama2-70b-chatの異なる好みは、現在のアラインメント手法がデバイアシングに不十分であり、従来の性別ステレオタイプに矛盾する新たなバイアスを導入する可能性があることを示唆しています。
Zhang et al. (Mon,) はこの問題を研究しました。