Key points are not available for this paper at this time.
L'analyse des données et l'apprentissage automatique sont devenus une partie intégrante de la méthodologie scientifique moderne, fournissant des techniques automatisées pour prédire des informations supplémentaires basées sur des observations. L'une de ces techniques de classification et de régression est l'approche de la forêt aléatoire. Ces prédicteurs basés sur des arbres de décision sont mieux connus pour leur bonne performance computationnelle et leur évolutivité. Cependant, en cas de données d'entraînement gravement déséquilibrées, comme souvent observé dans les données d'études médicales avec de grands groupes témoins, l'algorithme d'entraînement ou le processus d'échantillonnage doit être modifié afin d'améliorer la qualité de prédiction pour les classes minoritaires. Dans ce travail, une approche de forêt aléatoire équilibrée pour WEKA est proposée. De plus, la qualité de prédiction de l'implémentation de forêt aléatoire non modifiée et de la nouvelle version de forêt aléatoire équilibrée pour WEKA sont évaluées par rapport à des implémentations de référence en R. Des problèmes à deux classes sur des ensembles de données équilibrées et des données d'études médicales déséquilibrées sont étudiés. Une qualité de prédiction supérieure utilisant la méthode proposée pour des données déséquilibrées est démontrée par rapport aux trois autres techniques.
Amrehn et al. (Mer,) ont étudié cette question.