Key points are not available for this paper at this time.
O conjunto de dados real possui muitas deficiências que representam desafios para o aprendizado de máquina. Alta dimensionalidade e a prevalência de classes desequilibradas são dois desafios importantes. Assim, a classificação dos dados é negativamente afetada por dados desequilibrados, e a alta dimensionalidade pode criar um desempenho subótimo do classificador. Neste artigo, exploramos e analisamos diferentes métodos de seleção de recursos para um conjunto de dados clínico que sofre com alta dimensionalidade e dados desequilibrados. O objetivo deste artigo é investigar o efeito dos dados desequilibrados na seleção de recursos, implementando os métodos de seleção de recursos para selecionar um subconjunto dos dados originais e, em seguida, reexaminar o conjunto de dados. Além disso, reamostramos o conjunto de dados para aplicar métodos de seleção de recursos em uma classe equilibrada, a fim de comparar os resultados com os dados originais. As técnicas de floresta aleatória e J48 foram usadas para avaliar a eficácia das amostras. Os experimentos confirmam que a reamostragem da classe desequilibrada obtém um aumento significativo no desempenho da classificação, para ambos os métodos de taxonomia, floresta aleatória e J48. Além disso, a maior medida afetada pelos dados equilibrados é a especificidade, onde ela aumenta acentuadamente para todos os métodos. O que é mais, os subconjuntos selecionados dos dados equilibrados melhoram apenas o desempenho em termos de ganho de informação, onde isso diminui o desempenho dos outros.
Mohammad Al Khaldy (Qui,) estudou esta questão.