Key points are not available for this paper at this time.
Nous étudions la faisabilité d'un système de synthèse vocale chantée (SVS) en utilisant un cadre décomposé pour améliorer la flexibilité dans la génération de voix chantées. En raison des approches basées sur les données, le SVS effectue un mappage de la partition musicale à l'onde sonore ; cependant, le mappage direct limite le contrôle, comme la capacité à synthétiser uniquement dans la langue ou avec les chanteurs présents dans les ensembles de données de chant étiquetés. Comme la collecte de grands ensembles de données de chant étiquetés avec des partitions musicales est une tâche coûteuse, nous examinons une approche alternative en décomposant le système de SVS et en inférant différentes caractéristiques vocales chantées. Nous décomposons le système de SVS en modules à trois étapes de contenu linguistique, de contour de hauteur et de synthèse, dans lesquels des caractéristiques vocales chantées telles que le contenu linguistique, F0, vocalisé/non vocalisé, les embeddings de chanteurs et la puissance sont directement inférées à partir de l'audio. Grâce à ce cadre décomposé, nous montrons que nous pouvons atténuer les exigences relatives à l'ensemble de données étiqueté, nous adapter à différentes langues ou chanteurs, et retoucher le contenu lyrique des voix chantées. Nos enquêtes montrent que le cadre a le potentiel d'atteindre l'état de l'art en SVS, même si le modèle présente des fonctionnalités supplémentaires et une flexibilité améliorée. L'analyse complète des capacités actuelles de notre cadre examiné éclaire les manières dont la communauté de recherche peut atteindre un système SVS flexible et multifonctionnel.
Violeta et al. (Ven,) ont étudié cette question.