June 6, 2023

Albanisches Autorenattributionsmodell

Key Points

Key points are not available for this paper at this time.

Abstract

Die Autorenattribution (AA) ist ein Teilbereich des NLP, der die vorherigen Werke des Autors analysiert, um zu bestimmen, wer einen Text anhand seiner Merkmale verfasst hat. Jede natürliche Sprache hat ihre eigenen Eigenschaften, genauso wie jeder Autor einen einzigartigen Schreibstil hat. Diese Studie zielt darauf ab, einen umfassenden Vergleich mehrerer AA-Maschinenlerntechniken durchzuführen. Das speziell erstellte albanische Korpus (A3C) und der englische Datensatz (Reuters C50) wurden in den Experimenten verwendet. Mithilfe von n-Grammen führen wir Analysen auf Zeichen- und Wortebene des Textes durch, um den Schreibstil des Autors darzustellen. Wir verwenden fünf verschiedene Klassifikationsalgorithmen, um die AA-Modelle zu trainieren. Der TF-IDF-Featurevektor wird als Eingabe für die Modelle verwendet. Es wurden verschiedene Experimente mit den Korpora durchgeführt. Die genauesten Ergebnisse wurden mit Wort-n-Grammen nach der Entfernung von Stoppwörtern erzielt. Der SVM-Algorithmus erzielte die besten Ergebnisse im A3C-Datensatz (Albanisch). Wir erreichen einen F1-Score von 95 % mit SVM. Im C50-Datensatz (Englisch) erreichte der SVM-Klassifikator einen F1-Score von 83 %. Die Experimente haben Hinweise auf die robuste Leistung der Modelle in den AA-Korpora geliefert.

Bookmark

Albanisches Autorenattributionsmodell

Key Points

Abstract

Cite This Study