Key points are not available for this paper at this time.
Modelos generativos em grande escala, como GPT e DALL-E, revolucionaram a comunidade de pesquisa. Esses modelos não apenas geram saídas de alta fidelidade, mas também são generalistas que podem resolver tarefas não explicitamente ensinadas. Em contraste, os modelos generativos de fala ainda são primitivos em termos de escala e generalização de tarefas. Neste artigo, apresentamos o Voicebox, o modelo generativo guiado por texto mais versátil para fala em grande escala. O Voicebox é um modelo de correspondência de fluxo não autoregressivo treinado para preencher fala, dado um contexto de áudio e texto, treinado em mais de 50 mil horas de fala que não são filtradas ou aprimoradas. Similar ao GPT, o Voicebox pode realizar muitas tarefas diferentes através de aprendizado em contexto, mas é mais flexível, pois também pode condicionar a contextos futuros. O Voicebox pode ser usado para síntese de texto para fala monocultural ou cross-lingual em zero-shot, remoção de ruído, edição de conteúdo, conversão de estilo e geração de amostras diversas. Em particular, o Voicebox supera o estado da arte do modelo TTS em zero-shot VALL-E, tanto em inteligibilidade (5,9% vs 1,9% taxas de erro de palavras) quanto em similaridade de áudio (0,580 vs 0,681), sendo até 20 vezes mais rápido. Amostras de áudio podem ser encontradas em https://voicebox.metademolab.com.
Le et al. (Sexta-feira) estudaram esta questão.