Key points are not available for this paper at this time.
YourTTS traz o poder de uma abordagem multilíngue para a tarefa de TTS de falante zero-shot. Nosso método se baseia no modelo VITS e adiciona várias inovações para treinamento zero-shot multi-falante e multilíngue. Apresentamos resultados de ponta (SOTA) em TTS multi-falante zero-shot, comparáveis aos SOTA em conversão de voz zero-shot no conjunto de dados VCTK. Nossa abordagem alcança resultados promissores em um idioma-alvo com um conjunto de dados de único falante, abrindo possibilidades para sistemas de TTS multi-falante zero-shot e conversão de voz zero-shot em idiomas de baixo recurso. Finalmente, é possível ajustar o modelo YourTTS com menos de 1 minuto de fala para alcançar resultados de ponta em similaridade vocal de maneira razoável. Isso é importante para permitir a síntese para falantes com características vocais ou de gravação muito diferentes das observadas durante o treinamento.
Casanova et al. (Sat,) estudaram esta questão.