Große Sprachmodelle (LLMs) zeigen außergewöhnliche Zero-Shot-Fähigkeiten in verschiedenen NLP-Aufgaben, was die Benutzererfahrung und Effizienz erheblich verbessert. Dieses Vorteil ist jedoch hauptsächlich auf ressourcenreiche Sprachen beschränkt. Bei der Vielzahl von ressourcenarmen Sprachen bleibt die Unterstützung unzureichend, wobei der Mangel an Trainingskorpora als Hauptursache angesehen wird. Wir erstellen und veröffentlichen den CUTE-Datensatz in Chinesisch, Usbekisch, Tibetisch und Englisch, der aus zwei 25-GB-Sets mit mehrsprachigen Korpora (einem parallelen und einem nicht-parallelen) besteht, die durch maschinelle Übersetzung erhalten wurden. CUTE umfasst zwei ressourcenreiche Sprachen (Chinesisch und Englisch) und zwei ressourcenarme Sprachen (Usbekisch und Tibetisch). Vor der Erstellung von CUTE bestätigt eine menschliche Bewertung, dass die Qualität der maschinellen Übersetzung zwischen Chinesisch-Usbekisch und Chinesisch-Tibetisch mit der von Chinesisch-Englisch vergleichbar ist. CUTE stellt das bisher größte Open-Source-Korpus für Usbekisch und Tibetisch dar, und wir zeigen seine Wirksamkeit bei der Verbesserung der Fähigkeit von LLMs, ressourcenarme Sprachen zu verarbeiten, während wir die Rolle der Korpusparallelität im übergreifenden Lerntransfer untersuchen. Das CUTE-Korpus und die zugehörigen Modelle werden der Forschungsgemeinschaft öffentlich zur Verfügung gestellt.
Zhuang et al. (Sun) haben diese Frage untersucht.