• 分析了缺失数据插补对公平意识机器学习的影响;• 首次研究高缺失率公平性背景下的MAR/MNAR机制;• 探讨自编码器在缺失数据插补中公平性差距的作用;• 决策图有助于选择特定目标的最佳插补方法。缺失数据是现实世界数据集中常见的问题,可以被描述为数据集中一个或多个变量信息的缺乏。处理这一问题的最常用技术是插补,即根据预定义标准替换缺失值。由于缺失值通常基于数据集中已知值进行插补,现有数据问题可能在插补过程中被传播。公平性就是这样一个问题,它是负责任的人工智能实践中不可或缺的概念。本研究通过检查插补如何影响机器学习模型的预测公平性,调查了插补过程对系统公平性的影响。它提供了全面的分析,涵盖了在10%、20%、40%和60%缺失率下的十三个不公平基准数据集,以及六种最先进的插补策略,采用了合成非随机缺失和随机缺失机制。在多变量场景下测量了以下指标的公平性:统计平等、均等机会、预测平等、正负预测值的平等。结果表明,缺失机制、分类器选择和插补策略显著影响机器学习模型获得的预测公平性。
Mangussi等(Fri,)研究了这个问题。