我们推出了 EuroParlVote,这是一个评估大型语言模型(LLM)在政治敏感背景下的新基准。它将欧洲议会的辩论讲话与投票结果联系起来,并包含每位欧洲议会议员(MEP)的丰富人口统计元数据,如性别、年龄、国家和政治团体。通过使用 EuroParlVote,我们评估了最先进的 LLM 在性别分类和投票预测这两个任务上的表现,揭示了一致的偏见模式。我们发现,LLM 经常将女性 MEPS 错误分类为男性,并在模拟女性发言者的投票时表现出准确性降低。在政治上,LLM 倾向于支持中间派团体,而在极左和极右团体中表现不佳。诸如 GPT-4o 等专有模型在强健性和公平性方面优于开放权重的替代方案。我们发布了 EuroParlVote 数据集、代码和演示,以支持未来关于 NLP 在政治背景下公平性和问责制的研究。
Yang et al. (Sun,) 研究了这个问题。