Key points are not available for this paper at this time.
Les problèmes d'apprentissage déséquilibré contiennent une distribution inégale des échantillons de données entre différentes classes et posent un défi à tout classificateur, car il devient difficile d'apprendre les échantillons de la classe minoritaire. Les méthodes de suréchantillonnage synthétique abordent ce problème en générant des échantillons synthétiques de la classe minoritaire pour équilibrer la distribution entre les échantillons des classes majoritaire et minoritaire. Cet article identifie que la plupart des méthodes de suréchantillonnage existantes peuvent générer de mauvais échantillons synthétiques minoritaires dans certains scénarios et rendre les tâches d'apprentissage plus difficiles. À cette fin, une nouvelle méthode, appelée Technique de Suréchantillonnage Minoritaire Pondérée par la Majorité (MWMOTE), est présentée pour gérer efficacement les problèmes d'apprentissage déséquilibrés. MWMOTE identifie d'abord les échantillons minoritaires informatifs difficiles à apprendre et leur attribue des poids en fonction de leur distance euclidienne par rapport aux échantillons de la classe majoritaire les plus proches. Il génère ensuite les échantillons synthétiques à partir des échantillons minoritaires informatifs pondérés en utilisant une approche de clustering. Cela se fait de manière à ce que tous les échantillons générés se situent à l'intérieur d'un certain cluster de classe minoritaire. MWMOTE a été évalué de manière approfondie sur quatre ensembles de données artificiels et 20 ensembles de données du monde réel. Les résultats de la simulation montrent que notre méthode est meilleure ou comparable à certaines autres méthodes existantes en termes de divers indicateurs d'évaluation, tels que la moyenne géométrique (G-moyenne) et l'aire sous la courbe de fonctionnement du récepteur (ROC), généralement connue sous le nom d'aire sous la courbe (AUC).
Barua et al. (Mon,) ont étudié cette question.