September 1, 2024Open Access

Síntese de Fala de Alta Fidelidade Via Tokens Discretos Usando Transdutor de Tokens e Modelo de Linguagem Máscara em Grupo

Key Points

Key points are not available for this paper at this time.

Abstract

Propomos uma nova estrutura de síntese de fala (TTS) em duas etapas com dois tipos de tokens discretos, ou seja, tokens semânticos e tokens acústicos, para síntese de fala de alta fidelidade. Ela apresenta dois componentes principais: o módulo de Interpretação, que processa texto e um prompt de fala em tokens semânticos focando em conteúdos linguísticos e alinhamento, e o módulo de Fala, que captura o timbre da voz alvo para gerar tokens acústicos a partir de tokens semânticos, enriquecendo a reconstrução da fala. A etapa de Interpretação emprega um transdutor por sua robustez ao alinhar texto à fala. Em contraste, a etapa de Fala utiliza uma arquitetura baseada em Conformer integrada a um Modelo de Linguagem Máscara em Grupo (G-MLM) para aumentar a eficiência computacional. Nossos experimentos verificam que essa estrutura inovadora supera os modelos convencionais no cenário de zero-shot em termos de qualidade de fala e similaridade do falante.

Síntese de Fala de Alta Fidelidade Via Tokens Discretos Usando Transdutor de Tokens e Modelo de Linguagem Máscara em Grupo

Key Points

Abstract

Cite This Study

Also Consider

Also Consider