February 1, 2018Open Access

Reamostragem de Classe Desequilibrada e a Eficácia dos Métodos de Seleção de Recursos para Conjunto de Dados de Insuficiência Cardíaca

Key Points

Key points are not available for this paper at this time.

Abstract

O conjunto de dados real possui muitas deficiências que representam desafios para o aprendizado de máquina. Alta dimensionalidade e a prevalência de classes desequilibradas são dois desafios importantes. Assim, a classificação dos dados é negativamente afetada por dados desequilibrados, e a alta dimensionalidade pode criar um desempenho subótimo do classificador. Neste artigo, exploramos e analisamos diferentes métodos de seleção de recursos para um conjunto de dados clínico que sofre com alta dimensionalidade e dados desequilibrados. O objetivo deste artigo é investigar o efeito dos dados desequilibrados na seleção de recursos, implementando os métodos de seleção de recursos para selecionar um subconjunto dos dados originais e, em seguida, reexaminar o conjunto de dados. Além disso, reamostramos o conjunto de dados para aplicar métodos de seleção de recursos em uma classe equilibrada, a fim de comparar os resultados com os dados originais. As técnicas de floresta aleatória e J48 foram usadas para avaliar a eficácia das amostras. Os experimentos confirmam que a reamostragem da classe desequilibrada obtém um aumento significativo no desempenho da classificação, para ambos os métodos de taxonomia, floresta aleatória e J48. Além disso, a maior medida afetada pelos dados equilibrados é a especificidade, onde ela aumenta acentuadamente para todos os métodos. O que é mais, os subconjuntos selecionados dos dados equilibrados melhoram apenas o desempenho em termos de ganho de informação, onde isso diminui o desempenho dos outros.

Bookmark

View Full Paper

Cite This Study

Mohammad Al Khaldy (Qui,) estudou esta questão.

synapsesocial.com/papers/6a1568e9a2352da347826467 https://doi.org/https://doi.org/10.15406/iratj.2018.04.00090

Bookmark

View Full Paper