Key points are not available for this paper at this time.
Propomos uma nova estrutura de síntese de fala (TTS) em duas etapas com dois tipos de tokens discretos, ou seja, tokens semânticos e tokens acústicos, para síntese de fala de alta fidelidade. Ela apresenta dois componentes principais: o módulo de Interpretação, que processa texto e um prompt de fala em tokens semânticos focando em conteúdos linguísticos e alinhamento, e o módulo de Fala, que captura o timbre da voz alvo para gerar tokens acústicos a partir de tokens semânticos, enriquecendo a reconstrução da fala. A etapa de Interpretação emprega um transdutor por sua robustez ao alinhar texto à fala. Em contraste, a etapa de Fala utiliza uma arquitetura baseada em Conformer integrada a um Modelo de Linguagem Máscara em Grupo (G-MLM) para aumentar a eficiência computacional. Nossos experimentos verificam que essa estrutura inovadora supera os modelos convencionais no cenário de zero-shot em termos de qualidade de fala e similaridade do falante.
Lee et al. (Sun,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: