What type of study is this?

This is a Quantitative Study study.

October 3, 2025Open Access

CUTE: Ein mehrsprachiger Datensatz zur Verbesserung des übergreifenden Wissensübertrags in ressourcenarmen Sprachen

Key Points

Der CUTE-Datensatz verbessert die übergreifenden Fähigkeiten in ressourcenarmen Sprachen wie Usbekisch und Tibetisch.
Zwei 25-GB-Korpora — parallel und nicht-parallel — werden konstruiert und aus maschineller Übersetzung gewonnen.
Die Wirksamkeit von CUTE zeigt eine verbesserte Verarbeitung für ressourcenarme Sprachen unter Verwendung großer Sprachmodelle.
CUTE stellt das größte Open-Source-Korpus für Usbekisch und Tibetisch dar, was erhebliche Ressourcenunterschiede hervorhebt.

Abstract

Große Sprachmodelle (LLMs) zeigen außergewöhnliche Zero-Shot-Fähigkeiten in verschiedenen NLP-Aufgaben, was die Benutzererfahrung und Effizienz erheblich verbessert. Dieses Vorteil ist jedoch hauptsächlich auf ressourcenreiche Sprachen beschränkt. Bei der Vielzahl von ressourcenarmen Sprachen bleibt die Unterstützung unzureichend, wobei der Mangel an Trainingskorpora als Hauptursache angesehen wird. Wir erstellen und veröffentlichen den CUTE-Datensatz in Chinesisch, Usbekisch, Tibetisch und Englisch, der aus zwei 25-GB-Sets mit mehrsprachigen Korpora (einem parallelen und einem nicht-parallelen) besteht, die durch maschinelle Übersetzung erhalten wurden. CUTE umfasst zwei ressourcenreiche Sprachen (Chinesisch und Englisch) und zwei ressourcenarme Sprachen (Usbekisch und Tibetisch). Vor der Erstellung von CUTE bestätigt eine menschliche Bewertung, dass die Qualität der maschinellen Übersetzung zwischen Chinesisch-Usbekisch und Chinesisch-Tibetisch mit der von Chinesisch-Englisch vergleichbar ist. CUTE stellt das bisher größte Open-Source-Korpus für Usbekisch und Tibetisch dar, und wir zeigen seine Wirksamkeit bei der Verbesserung der Fähigkeit von LLMs, ressourcenarme Sprachen zu verarbeiten, während wir die Rolle der Korpusparallelität im übergreifenden Lerntransfer untersuchen. Das CUTE-Korpus und die zugehörigen Modelle werden der Forschungsgemeinschaft öffentlich zur Verfügung gestellt.

CUTE: Ein mehrsprachiger Datensatz zur Verbesserung des übergreifenden Wissensübertrags in ressourcenarmen Sprachen

Key Points

Abstract

Cite This Study