Key points are not available for this paper at this time.
Modelos de geração de áudio e música baseados em difusão comumente geram música construindo uma representação em imagem do áudio (por exemplo, um mel-espectrograma) e, em seguida, convertendo-a em áudio usando um modelo de reconstrução de fase ou vocoder. No entanto, vocoders típicos produzem áudio monofônico em resoluções mais baixas (por exemplo, 16-24 kHz), o que limita sua eficácia. Nós propomos o MusicHiFi -- um vocoder estéreo de alta fidelidade eficiente. Nosso método emprega uma cascata de três redes adversariais generativas (GANs) que convertem mel-espectrogramas de baixa resolução em áudio, aumentam a resolução do áudio através da expansão de largura de banda, e misturam para áudio estéreo. Em comparação com trabalhos anteriores, propomos 1) uma arquitetura de gerador e discriminador unificada baseada em GAN e um procedimento de treinamento para cada etapa de nossa cascata, 2) um novo módulo de extensão de largura de banda rápido e compatível com quase downsampling, e 3) um novo upmixer mono-para-estéreo compatível com downmix que garante a preservação do conteúdo monofônico na saída. Avaliamos nossa abordagem por meio de testes de escuta objetivos e subjetivos e encontramos que nossa abordagem gera qualidade de áudio comparável ou melhor, melhor controle de espacialização e velocidade de inferência significativamente mais rápida em comparação com trabalhos anteriores. Exemplos de áudio estão em https://MusicHiFi.github.io/web/.
Zhu et al. (Sex,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: