What question did this study set out to answer?

本研究探讨缺失数据的插补方法如何影响机器学习预测中的公平性。

May 15, 2026Open Access

探索缺失数据插补对组公平性指标的影响

Key Points

本研究探讨缺失数据的插补方法如何影响机器学习预测中的公平性。
分析了在MAR/MNAR机制下缺失率高（10%、20%、40%、60%）的13个基准数据集。
评估了6种先进的插补策略及其对公平性指标的影响。
利用决策图指导公平性目标的最佳插补方法选择。
插补策略和缺失数据机制显著影响公平性指标。
统计平等和预测平等根据所用插补方法显示出不同程度的偏差。
不同分类器根据所应用的插补技术产生不同的公平性结果。

Abstract

• 分析了缺失数据插补对公平意识机器学习的影响；• 首次研究高缺失率公平性背景下的MAR/MNAR机制；• 探讨自编码器在缺失数据插补中公平性差距的作用；• 决策图有助于选择特定目标的最佳插补方法。缺失数据是现实世界数据集中常见的问题，可以被描述为数据集中一个或多个变量信息的缺乏。处理这一问题的最常用技术是插补，即根据预定义标准替换缺失值。由于缺失值通常基于数据集中已知值进行插补，现有数据问题可能在插补过程中被传播。公平性就是这样一个问题，它是负责任的人工智能实践中不可或缺的概念。本研究通过检查插补如何影响机器学习模型的预测公平性，调查了插补过程对系统公平性的影响。它提供了全面的分析，涵盖了在10%、20%、40%和60%缺失率下的十三个不公平基准数据集，以及六种最先进的插补策略，采用了合成非随机缺失和随机缺失机制。在多变量场景下测量了以下指标的公平性：统计平等、均等机会、预测平等、正负预测值的平等。结果表明，缺失机制、分类器选择和插补策略显著影响机器学习模型获得的预测公平性。

探索缺失数据插补对组公平性指标的影响

Key Points

Abstract

Cite This Study