Key points are not available for this paper at this time.
Apresentamos um modelo simples e eficiente de geração e edição de música de alta fidelidade controlado por texto. Ele opera em sequências de representações latentes contínuas a partir de um codec de codificador automático variacional estéreo de 48 kHz com baixa taxa de quadros, que elimina a desvantagem de perda de informação das representações discretas. Baseado em uma arquitetura de transformador de difusão treinada em um objetivo de correspondência de fluxo, o modelo pode gerar e editar amostras estéreos de alta qualidade e duração variável, com descrições de texto simples. Também exploramos um novo método de inversão latente regularizada para edição guiada por texto em zero-shot no tempo de teste e demonstramos seu desempenho superior em relação à inversão de modelos implícitos de difusão de denoising ingênuos (DDIM) para uma variedade de prompts de edição musical. As avaliações são realizadas em métricas objetivas e subjetivas e demonstram que o modelo proposto é não apenas competitivo em relação às bases de comparação avaliadas em um benchmark padrão de texto para música - em termos de qualidade e eficiência - mas também supera os melhores da categoria anteriores para edição musical quando combinado com nossa inversão latente proposta. Amostras estão disponíveis em https://melodyflow.github.io.
Lan et al. (Qui,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: