What type of study is this?

This is a Quantitative Study study.

synapse

⌘+K

synapse

⌘+K

October 12, 2025Open Access

大型语言模型中的性别和政治偏见基准评估

Key Points

大型语言模型经常将女性欧洲议会议员错误分类为男性，表明存在系统性偏见。
评估表明，LLM 倾向于支持中间派政治团体，同时在极左和极右类别上的准确性降低。
诸如 GPT-4o 的专有模型在政治敏感任务的强健性、公平性和准确性方面优于开放权重的替代方案。
EuroParlVote 数据集为未来在自然语言处理领域中的公平性和问责制研究提供了重要数据。

Abstract

我们推出了 EuroParlVote，这是一个评估大型语言模型（LLM）在政治敏感背景下的新基准。它将欧洲议会的辩论讲话与投票结果联系起来，并包含每位欧洲议会议员（MEP）的丰富人口统计元数据，如性别、年龄、国家和政治团体。通过使用 EuroParlVote，我们评估了最先进的 LLM 在性别分类和投票预测这两个任务上的表现，揭示了一致的偏见模式。我们发现，LLM 经常将女性 MEPS 错误分类为男性，并在模拟女性发言者的投票时表现出准确性降低。在政治上，LLM 倾向于支持中间派团体，而在极左和极右团体中表现不佳。诸如 GPT-4o 等专有模型在强健性和公平性方面优于开放权重的替代方案。我们发布了 EuroParlVote 数据集、代码和演示，以支持未来关于 NLP 在政治背景下公平性和问责制的研究。

大型语言模型中的性别和政治偏见基准评估

Key Points

Abstract

Cite This Study