December 4, 2020

Modellierung der crosslinguistischen n‑gram-Korrespondenz in typologisch unterschiedlichen Sprachen

Key Points

Key points are not available for this paper at this time.

Abstract

Zusammenfassung Die N‑gram-Analyse (popularisiert z.B. durch Biber et al., 1999) ist eine beliebte Methode zur Identifikation wiederkehrender Sprachmuster geworden. Obwohl die Extraktion von n‑grams aus einem Korpus simpel erscheinen mag, erweist sie sich bei der crosslinguistischen Anwendung als sehr herausfordernd (vgl. z.B. Ebeling und Ebeling, 2013; Granger und Lefer, 2013; Čermáková und Chlumská, 2017). Das Hauptproblem besteht darin, dass die Mengen von n‑grams einer bestimmten Länge in typologisch unterschiedlichen Sprachen nicht übereinstimmen. Folglich können n‑grams einer gegebenen Länge in verschiedenen Sprachen unterschiedlich funktionieren, was einen direkten Vergleich unzureichend macht. Unser Beitrag stellt eine Funktion vor, die die Beziehung zwischen den Mengen von n‑grams in typologisch weit entfernten Sprachen modelliert, exemplarisch dargestellt an Tschechisch und Englisch (und einigen anderen Sprachpaaren). Basierend auf unserem Modell können wir vorschlagen, welche n‑gram-Längen kontrastiert werden sollten, um die Größe der n‑gram-Inventare in jeder Sprache besser widerzuspiegeln. Die Korrespondenz ist möglicherweise nicht intuitiv (z.B. entspricht ein tschechisches 2-gram am besten einem englischen 2,5-gram), bietet Forschern aber dennoch eine allgemeine Orientierungshilfe, was in ihre Analyse einbezogen werden sollte (z.B. in diesem Fall 2-grams im Tschechischen und 2- und 3-grams im Englischen).

Bookmark

Modellierung der crosslinguistischen n‑gram-Korrespondenz in typologisch unterschiedlichen Sprachen

Key Points

Abstract

Cite This Study

Also Consider

Also Consider