Key points are not available for this paper at this time.
Die Unterabtastung ist eine beliebte Technik für unausgeglichene Datensätze, um die Verzerrung in den Klassendistributionen zu reduzieren. Es ist jedoch bekannt, dass das Unterabtasten einer Klasse die Priorverteilungen des Trainingssatzes verändert und folglich die posterioren Wahrscheinlichkeiten eines Klassifikators verzerrt. In diesem Papier untersuchen wir analytisch und experimentell, wie sich das Unterabtasten auf die posterioren Wahrscheinlichkeiten eines maschinellen Lernmodells auswirkt. Wir formalisieren das Problem der Unterabtastung und erkunden die Beziehung zwischen bedingter Wahrscheinlichkeit in Anwesenheit und Abwesenheit von Unterabtastung. Obwohl die Verzerrung aufgrund der Unterabtastung die Rangordnung, die durch die posteriore Wahrscheinlichkeit zurückgegeben wird, nicht beeinflusst, hat sie erhebliche Auswirkungen auf die Klassifikationsgenauigkeit und die Wahrscheinlichkeitskalibrierung. Wir verwenden die Bayes-Minimum-Risiko-Theorie, um die korrekte Klassifikationsschwelle zu finden und zeigen, wie man diese nach der Unterabtastung anpasst. Experimente an mehreren realen unausgeglichenen Datensätzen validieren unsere Ergebnisse.
Pozzolo et al. (Tue,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: