November 16, 2023Open Access

Automatische Genreidentifikation: Eine Umfrage

Key Points

Key points are not available for this paper at this time.

Abstract

Zusammenfassung Die automatische Genreidentifikation (AGI) ist eine Textklassifikationsaufgabe, die sich auf Genres konzentriert, d.h. auf Textkategorien, die durch den Zweck des Autors, die gemeinsame Funktion des Textes und die konventionelle Form des Textes definiert sind. Der Erwerb von Genreinformationen hat sich als vorteilhaft für eine Vielzahl von Disziplinen erwiesen, darunter Linguistik, Korpuslinguistik, computerlinguistische Linguistik, Verarbeitung natürlicher Sprache, Informationsretrieval und Informationssicherheit. In den letzten 20 Jahren haben zahlreiche Forscher Genre-Datensätze gesammelt, um einen effizienten Genreklassifikator zu entwickeln. Ihre Ansätze zur Definition von Genreschemata, Datensammlung und manueller Annotation variieren jedoch erheblich, was zu erheblich unterschiedlichen Datensätzen führt. Da die meisten AGI-Experimente datensatzabhängig sind, ist ein ausreichendes Verständnis der Unterschiede zwischen den verfügbaren Genre-Datensätzen von großer Bedeutung für die Forscher, die sich in diesem Bereich versuchen. In diesem Papier präsentieren wir einen detaillierten Überblick über verschiedene Ansätze zu jedem der Schritte der AGI-Aufgabe, von der Definition des Genre-Konzepts und des Genreschemas über die Datensammlung und Annotierungsmethoden bis hin zu Strategien des maschinellen Lernens. Besonderes Augenmerk wird auf die Beschreibung der relevantesten Genreschemata und Datensätze gelegt, und es werden Details zur Verfügbarkeit aller Datensätze bereitgestellt. Darüber hinaus präsentiert das Papier die jüngsten Fortschritte bei den maschinellen Lernansätzen zur automatischen Genreidentifikation und schließt mit Vorschlägen für die Entwicklung eines stabilen mehrsprachigen Genreklassifikators.

KI fragen

Bookmark

View Full Paper