Key points are not available for this paper at this time.
A clonagem de voz em texto para fala (TTS) é o processo de replicar a voz de um falante-alvo com dados limitados. Entre as várias técnicas de clonagem de voz, este artigo foca na clonagem de voz zero-shot. Embora os modelos de TTS existentes possam gerar fala de alta qualidade para falantes conhecidos, a clonagem da voz de um falante desconhecido continua a ser uma tarefa desafiadora. O aspecto chave da clonagem de voz zero-shot é obter uma incorporação do falante a partir do falante-alvo. Trabalhos anteriores utilizaram um codificador de falante para obter uma incorporação de falante de tamanho fixo a partir de um único áudio de referência de forma não supervisionada, mas eles sofrem de informações insuficientes sobre o falante e vazamento de informações de conteúdo na incorporação do falante. Para abordar essas questões, este artigo propõe o MRMI-TTS, um framework baseado em FastSpeech2 que usa a incorporação do falante como uma variável de condicionamento para fornecer informações sobre o falante. O MRMI-TTS extrai a incorporação do falante e a incorporação do conteúdo de áudios de múltiplas referências usando um codificador de falante e um codificador de conteúdo. Para obter informações suficientes sobre o falante, áudios de múltiplas referências são selecionados com base na similaridade de frases. O modelo proposto aplica minimização da informação mútua nas duas incorporações para remover informações entrelaçadas dentro de cada incorporação. Experimentos no conjunto de dados público em inglês VCTK mostram que nosso método pode melhorar a fala sintetizada em termos de similaridade e naturalidade, mesmo para falantes não vistos. Comparado a métodos de incorporações de referência de última geração, nosso método alcança o melhor desempenho na tarefa de clonagem de voz zero-shot. Além disso, demonstramos que o método proposto tem uma melhor capacidade de manter a incorporação do falante em diferentes idiomas. Amostras de saída estão disponíveis na página de demonstração.
Chen et al. (Sat,) estudaram esta questão.