July 4, 2024Open Access

Geração e Edição de Música Guiada por Texto de Alta Fidelidade via Correspondência de Fluxo em Uma Única Etapa

Key Points

Key points are not available for this paper at this time.

Abstract

Apresentamos um modelo simples e eficiente de geração e edição de música de alta fidelidade controlado por texto. Ele opera em sequências de representações latentes contínuas a partir de um codec de codificador automático variacional estéreo de 48 kHz com baixa taxa de quadros, que elimina a desvantagem de perda de informação das representações discretas. Baseado em uma arquitetura de transformador de difusão treinada em um objetivo de correspondência de fluxo, o modelo pode gerar e editar amostras estéreos de alta qualidade e duração variável, com descrições de texto simples. Também exploramos um novo método de inversão latente regularizada para edição guiada por texto em zero-shot no tempo de teste e demonstramos seu desempenho superior em relação à inversão de modelos implícitos de difusão de denoising ingênuos (DDIM) para uma variedade de prompts de edição musical. As avaliações são realizadas em métricas objetivas e subjetivas e demonstram que o modelo proposto é não apenas competitivo em relação às bases de comparação avaliadas em um benchmark padrão de texto para música - em termos de qualidade e eficiência - mas também supera os melhores da categoria anteriores para edição musical quando combinado com nossa inversão latente proposta. Amostras estão disponíveis em https://melodyflow.github.io.

Geração e Edição de Música Guiada por Texto de Alta Fidelidade via Correspondência de Fluxo em Uma Única Etapa

Key Points

Abstract

Cite This Study

Also Consider

Also Consider