April 17, 2018Open Access

Eine vergleichende Studie zur Verwendung der Hauptkomponentenanalyse mit verschiedenen Textklassifikatoren

Key Points

Key points are not available for this paper at this time.

Abstract

Die Textkategorisierung (TC) ist die Aufgabe, eine Sammlung von Dokumenten automatisch in eine Menge vordefinierter Kategorien zu organisieren. In den letzten Jahren wurde verstärkt auf die Verwendung von Dokumenten in digitaler Form geachtet, was die Textkategorisierung zu einer herausfordernden Aufgabe macht. Das bedeutendste Problem der Textkategorisierung ist die enorme Anzahl an Merkmalen. Die meisten dieser Merkmale sind redundant, störanfällig und irrelevant, was zu Überanpassung bei den meisten Klassifikatoren führt. Daher ist die Merkmalsselektion ein wichtiger Schritt zur Verbesserung der Gesamtgenauigkeit und der Leistung der Textklassifikatoren. In diesem Papier geben wir einen Überblick über die Verwendung der Hauptkomponentenanalyse (PCA) als Merkmalsauswahl mit verschiedenen Klassifikatoren. Es wurde beobachtet, dass sich die Leistungsrate der Klassifikatoren nach der Verwendung von PCA zur Dimensionsreduktion der Daten verbessert hat. Experimente wurden an drei UCI-Datensätzen, Classic03, CNAE-9 und DB-World E-Mails, durchgeführt. Wir vergleichen die Klassifikationsleistungsergebnisse der Verwendung von PCA mit beliebten und bekannten Textklassifikatoren. Die Ergebnisse zeigen, dass die Verwendung von PCA ermutigend die Klassifikationsleistung der meisten Klassifikatoren verbessert.

KI fragen

Bookmark

View Full Paper