March 18, 2024Open Access

Aprimoramento de Fala Não Supervisionado com Modelos Gerativos Baseados em Difusão

Key Points

Key points are not available for this paper at this time.

Abstract

Recentemente, modelos de difusão condicionais baseados em pontuação ganharam atenção significativa no campo do aprimoramento de fala supervisionado, produzindo desempenho de ponta. No entanto, esses métodos podem enfrentar desafios ao se generalizar para condições não vistas. Para abordar esse problema, apresentamos uma abordagem alternativa que opera de maneira não supervisionada, aproveitando o poder gerativo dos modelos de difusão. Especificamente, em uma fase de treinamento, uma distribuição anterior de fala limpa é aprendida no domínio da transformação de Fourier de curto prazo (STFT) usando modelos de difusão baseados em pontuação, permitindo gerar incondicionalmente fala limpa a partir de ruído gaussiano. Em seguida, desenvolvemos uma metodologia de amostragem posterior para aprimoramento de fala, combinando a distribuição anterior de fala limpa aprendida com um modelo de ruído para inferência de sinal de fala. Os parâmetros de ruído são simultaneamente aprendidos junto com a estimativa de fala limpa através de uma abordagem iterativa de maximização de expectativa (EM). Até onde sabemos, este é o primeiro trabalho a explorar modelos gerativos baseados em difusão para aprimoramento de fala não supervisionado, demonstrando resultados promissores em comparação com uma abordagem não supervisionada recente baseada em autoencoders variacionais (VAE) e um método supervisionado baseado em difusão de ponta. Assim, abre uma nova direção para futuras pesquisas em aprimoramento de fala não supervisionado.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper