November 3, 2003

Textklassifikation aus positiven und ungelabelten Dokumenten

Key Points

Key points are not available for this paper at this time.

Abstract

Die meisten bestehenden Studien zur Textklassifikation setzen voraus, dass die Trainingsdaten vollständig beschriftet sind. In Wirklichkeit können jedoch viele Probleme der Informationsretrieval als das Erlernen eines binären Klassifikators aus einer Menge von unvollständig beschrifteten Beispielen genauer beschrieben werden, wobei wir typischerweise eine geringe Anzahl von beschrifteten positiven Beispielen und eine sehr große Anzahl von unlabeled Beispielen haben. In diesem Papier untersuchen wir ein solches Problem der Durchführung von Textklassifikation ohne beschriftete negative Daten (TC-WON). Wir erkunden eine effiziente Erweiterung des standardmäßigen Support Vector Machine (SVM)-Ansatzes, genannt SVMC (Support Vector Mapping Convergence), für die TC-WON-Aufgaben. Unsere Analysen zeigen, dass SVMC andere Methoden signifikant übertrifft, wenn die positiven Trainingsdaten nicht zu stark unterprobt sind, da SVMC im Wesentlichen die natürliche "Lücke" zwischen positiven und negativen Dokumenten im Merkmalsraum ausnutzt, was letztendlich zu einer Verbesserung der Verallgemeinerungsperformance führt. Im Textbereich gibt es wahrscheinlich viele Lücken im Merkmalsraum, da ein Dokument normalerweise in einen spärlichen und hochdimensionalen Merkmalsraum abgebildet wird. Wenn jedoch die Anzahl der positiven Trainingsdaten abnimmt, beginnt die SVMC-Grenze irgendwann zu überanpassen und führt zu sehr schlechten Ergebnissen. Dies liegt daran, dass die Grenze zu oft iteriert und die natürlichen Lücken zwischen der positiven und negativen Klasse im Merkmalsraum überschreitet, wenn die positiven Trainingsdaten zu gering sind, und sich somit eng um die wenigen positiven Trainingsdaten anpasst.

Bookmark

Textklassifikation aus positiven und ungelabelten Dokumenten

Key Points

Abstract

Cite This Study