Key points are not available for this paper at this time.
Die Textkategorisierung (TC) ist die Aufgabe, eine Sammlung von Dokumenten automatisch in eine Menge vordefinierter Kategorien zu organisieren. In den letzten Jahren wurde verstärkt auf die Verwendung von Dokumenten in digitaler Form geachtet, was die Textkategorisierung zu einer herausfordernden Aufgabe macht. Das bedeutendste Problem der Textkategorisierung ist die enorme Anzahl an Merkmalen. Die meisten dieser Merkmale sind redundant, störanfällig und irrelevant, was zu Überanpassung bei den meisten Klassifikatoren führt. Daher ist die Merkmalsselektion ein wichtiger Schritt zur Verbesserung der Gesamtgenauigkeit und der Leistung der Textklassifikatoren. In diesem Papier geben wir einen Überblick über die Verwendung der Hauptkomponentenanalyse (PCA) als Merkmalsauswahl mit verschiedenen Klassifikatoren. Es wurde beobachtet, dass sich die Leistungsrate der Klassifikatoren nach der Verwendung von PCA zur Dimensionsreduktion der Daten verbessert hat. Experimente wurden an drei UCI-Datensätzen, Classic03, CNAE-9 und DB-World E-Mails, durchgeführt. Wir vergleichen die Klassifikationsleistungsergebnisse der Verwendung von PCA mit beliebten und bekannten Textklassifikatoren. Die Ergebnisse zeigen, dass die Verwendung von PCA ermutigend die Klassifikationsleistung der meisten Klassifikatoren verbessert.
A. et al. (Tue,) haben diese Frage untersucht.