Key points are not available for this paper at this time.
Dieses Papier beschreibt Arbeiten im StatLog-Projekt, das Klassifikationsalgorithmen bei großen realen Problemen vergleicht. Die verglichenen Algorithmen stammen aus dem symbolischen Lernen (CART, C4.5, NewID, AC2, ITrule, Cal5, CN2), der Statistik (Naive Bayes, k-nächste Nachbarn, Kernel-Dichte, lineare Diskriminanz, quadratische Diskriminanz, logistische Regression, Projektion Pursuit, Bayessche Netze) und neuronalen Netzwerken (Backpropagation, radiale Basisfunktionen). Zwölf Datensätze wurden verwendet: fünf aus der Bildanalyse, drei aus der Medizin und jeweils zwei aus Ingenieurwesen und Finanzen. Wir fanden heraus, dass die Leistung des jeweiligen Algorithmus stark vom untersuchten Datensatz abhängt. Daher entwickelten wir eine Reihe von Datensatzbeschreibungen, um zu entscheiden, welche Algorithmen für bestimmte Datensätze geeignet sind. Beispielsweise neigen Datensätze mit extremen Verteilungen (Schiefe > 1 und Kurtosis > 7) und mit vielen binären/kategorialen Attributen (>38%) dazu, symbolische Lernalgorithmen zu begünstigen. Wir schlagen vor, wie Klassifikationsalgorithmen in verschiedene Richtungen erweitert werden können.
King et al. (Mon,) haben diese Frage untersucht.