Key points are not available for this paper at this time.
Nós introduzimos o AudioLM, uma estrutura para geração de áudio de alta qualidade com consistência de longo prazo. O AudioLM mapeia o áudio de entrada para uma sequência de tokens discretos e lança a geração de áudio como uma tarefa de modelagem de linguagem nesse espaço de representação. Mostramos como os tokenizadores de áudio existentes fornecem diferentes compensações entre qualidade de reconstrução e estrutura de longo prazo, e propomos um esquema de tokenização híbrido para alcançar ambos os objetivos. Ou seja, aproveitamos as ativações discretizadas de um modelo de linguagem mascarado pré-treinado em áudio para capturar a estrutura de longo prazo e os códigos discretos produzidos por um codec de áudio neural para alcançar síntese de alta qualidade. Ao treinar em grandes corpora de formas de onda de áudio bruto, o AudioLM aprende a gerar continuações naturais e coerentes dadas as solicitações curtas. Quando treinado em fala, e sem qualquer transcrição ou anotação, o AudioLM gera continuações de fala sintaticamente e semanticamente plausíveis, mantendo também a identidade e a prosódia do falante para falantes não vistos. Além disso, demonstramos como nossa abordagem se estende além da fala gerando continuações coerentes de música de piano, apesar de ter sido treinado sem qualquer representação simbólica da música.
Borsos et al. (Sun,) estudaram essa questão.
Synapse has enriched 2 closely related papers on similar clinical questions. Consider them for comparative context: