Key points are not available for this paper at this time.
As práticas de dados moldam a pesquisa e a prática sobre equidade em aprendizado de máquina (ML justo). Estudos críticos de dados oferecem reflexões e críticas importantes para o avanço responsável do campo, destacando deficiências e propondo recomendações para melhoria. Neste trabalho, apresentamos uma análise abrangente de conjuntos de dados de ML justo, demonstrando como práticas comuns, mas não reflexivas, impedem o alcance e a confiabilidade das descobertas sobre equidade algorítmica. Estudamos sistematicamente informações protegidas codificadas em conjuntos de dados tabulares e seu uso em 280 experimentos ao longo de 142 publicações. Nossas análises identificam três áreas principais de preocupação: (1) a falta de representação para certos atributos protegidos tanto em dados quanto em avaliações; (2) a exclusão generalizada de minorias durante o pré-processamento de dados; e (3) o processamento opaco de dados que ameaça a generalização da pesquisa sobre equidade. Ao conduzir análises exemplares sobre a utilização de conjuntos de dados proeminentes, mostramos como decisões de dados não reflexivas afetam desproporcionalmente grupos minoritários, métricas de equidade e comparações de modelos resultantes. Além disso, identificamos fatores suplementares como limitações em dados disponíveis publicamente, considerações de privacidade e uma falta geral de conscientização, que agravam esses desafios. Para abordar essas questões, propomos um conjunto de recomendações para o uso de dados em pesquisa sobre equidade centradas em transparência e inclusão responsável. Este estudo sublinha a necessidade de uma reavaliação crítica das práticas de dados em ML justo e oferece diretrizes para melhorar tanto a obtenção quanto o uso de conjuntos de dados.
Simson et al. (Sex,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: