January 28, 2023Open Access

Mehrsprachige Sprachrecognition für turkische Sprachen

Key Points

Key points are not available for this paper at this time.

Abstract

Das primäre Ziel dieser Studie war es, zur Entwicklung von mehrsprachiger automatischer Sprachrecognition für weniger ressourcenreiche turkische Sprachen beizutragen. Zehn Sprachen—Aserbaidschanisch, Baschkirisch, Tschuwaschisch, Kasachisch, Kirgisisch, Sacha, Tatarisch, Türkisch, Uigurisch und Usbekisch—wurden berücksichtigt. Insgesamt wurden 22 Modelle entwickelt (13 einsprachige und 9 mehrsprachige). Die mehrsprachigen Modelle, die mit gemeinsamen Sprachdaten trainiert wurden, zeigten eine robustere Leistung als die Baseline der einsprachigen Modelle, wobei das beste Modell eine durchschnittliche Reduzierung der Zeichen- und Wörterfehlerrate von 56,7 % bzw. 54,3 % erreichte. Die Ergebnisse des Experiments zeigten, dass eine Reduzierung der Zeichen- und Wörterfehlerrate wahrscheinlicher war, wenn mehrsprachige Modelle mit Daten von verwandten turkischen Sprachen trainiert wurden, als wenn sie mit Daten von nicht verwandten, nicht-turkischen Sprachen wie Englisch und Russisch entwickelt wurden. Die Studie präsentierte auch ein Open-Source-Türkisches Sprachcorpus. Das Corpus enthält 218,2 Stunden transkribierter Sprache mit 186.171 Äußerungen und ist das größte öffentlich verfügbare Türkisch-Dataset seiner Art. Die Datensätze und Codes, die zum Trainieren der Modelle verwendet wurden, sind auf unserer GitHub-Seite zum Download verfügbar.

KI fragen

Bookmark

View Full Paper