Key points are not available for this paper at this time.
Os avanços em métodos de texto para fala (TTS) sem treinamento, baseados em modelos de grande escala, demonstraram alta fidelidade na reprodução das características do falante. No entanto, esses modelos são grandes demais para uso diário prático. Propomos um método leve de TTS sem treinamento usando uma mistura de adaptadores (MoA). Nosso método proposto incorpora módulos MoA no decodificador e no adaptador de variância de um modelo TTS não autoregressivo. Esses módulos aprimoram a capacidade de adaptar uma ampla variedade de falantes de maneira sem treinamento, selecionando adaptadores apropriados associados às características do falante com base nas representações do falante. Nosso método alcança síntese de fala de alta qualidade com um número mínimo de parâmetros adicionais. Através de avaliações objetivas e subjetivas, confirmamos que nosso método apresenta desempenho melhor do que a linha de base com menos de 40% dos parâmetros em uma velocidade de inferência 1,9 vezes mais rápida.
Fujita et al. (Sun,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: