March 5, 2024Open Access

NaturalSpeech 3 : Synthèse vocale à zéro coup avec codec factorisé et modèles de diffusion

Key Points

Key points are not available for this paper at this time.

Abstract

Bien que les modèles récents de synthèse vocale (TTS) à grande échelle aient réalisé des progrès significatifs, ils restent insuffisants en termes de qualité de la parole, de similitude et de prosodie. Étant donné que la parole englobe de manière complexe divers attributs (par exemple, contenu, prosodie, timbre et détails acoustiques) qui posent des défis importants pour la génération, une idée naturelle est de factoriser la parole en sous-espaces individuels représentant différents attributs et de les générer individuellement. Motivé par cela, nous proposons NaturalSpeech 3, un système TTS avec de nouveaux modèles de diffusion factorisés pour générer une parole naturelle de manière zéro-coup. Plus précisément, 1) nous concevons un codec neural avec quantification vectorielle factorisée (FVQ) pour décomposer la forme d'onde vocale en sous-espaces de contenu, prosodie, timbre et détails acoustiques ; 2) nous proposons un modèle de diffusion factorisé pour générer des attributs dans chaque sous-espace en suivant son invite correspondante. Avec ce design de factorisation, NaturalSpeech 3 peut modéliser de manière efficace et efficiente la parole complexe avec des sous-espaces décomposés de manière à diviser pour mieux régner. Les expériences montrent que NaturalSpeech 3 surpasse les systèmes TTS à la pointe de la technologie en matière de qualité, de similitude, de prosodie et d'intelligibilité. De plus, nous obtenons de meilleures performances en passant à 1 milliard de paramètres et à 200 000 heures de données d'entraînement.

Read Full Paperexternally

Demander à l'IA

Bookmark

View Full Paper