March 3, 2026Open Access

Kingfisher : Une normalisation de texte Bangla augmentée par un LLM hybride pour une amélioration de la synthèse vocale

Key Points

Kingfisher atteint une précision globale de 96 % dans la normalisation de texte Bangla, significativement plus élevée que les outils existants.
À travers divers textes Bangla, ce cadre hybride combine la tokenisation basée sur un LLM et des approches pilotées par le lexique.
Les évaluations de performance montrent que les outils actuels pour les langues à faibles ressources sont insuffisants, Kingfisher établissant une nouvelle référence.
La publication du jeu de données de normalisation de texte Bangla et du code source améliore la recherche dans la technologie de la parole Bangla.

Abstract

La normalisation de texte (TN), le processus de conversion des mots non standards en leurs équivalents parlés, est une étape fondamentale de prétraitement pour les systèmes de synthèse vocale (TTS). Bien que des progrès substantiels aient été réalisés dans la TN pour les langues bien dotées en ressources, des langues à faibles ressources comme le Bangla ont reçu peu d'attention. Nous présentons Kingfisher, un cadre hybride en trois étapes combinant la tokenisation basée sur un LLM et l'annotation de classe sémiotique, la verbalisation contextuelle pilotée par le lexique, et la correction d'erreurs pour construire un normalisateur de texte Bangla précis. Les évaluations expérimentales sur divers textes Bangla montrent que Kingfisher atteint une performance supérieure, avec une précision globale de 96 % (intervalle de confiance 95 % – 97 %), surpassant fortement le seul normalisateur de texte Bangla disponible publiquement, Sparrowhawk. Pour soutenir la recherche ultérieure, nous publions le jeu de données de normalisation de texte Bangla et rendons le code source du système de normalisation de texte publiquement disponible, offrant une contribution substantielle à la communauté de la technologie de la parole Bangla.

Kingfisher : Une normalisation de texte Bangla augmentée par un LLM hybride pour une amélioration de la synthèse vocale

Key Points

Abstract

Cite This Study