March 18, 2024Open Access

Multi-CMGAN+/+: Aproveitando a Previsão de Métricas de Qualidade de Fala Multobjetivo para Aprimoramento de Fala

Key Points

Key points are not available for this paper at this time.

Abstract

Abordagens baseadas em redes neurais para aprimoramento de fala mostraram ser particularmente poderosas, sendo capazes de utilizar uma abordagem orientada a dados para resultar em um ganho de desempenho significativo em comparação com outras abordagens. Tais abordagens dependem de dados de treinamento rotulados criados artificialmente para que o modelo neural possa ser treinado usando funções de perda intrusivas que comparam a saída do modelo com fala de referência limpa. O desempenho de tais sistemas ao aprimorar áudio do mundo real muitas vezes sofre em relação ao seu desempenho em dados de teste simulados. Neste trabalho, é introduzida uma abordagem de previsão multi-métrica não intrusiva, na qual um modelo é treinado em dados rotulados artificiais usando a inferência de uma rede neural de previsão de métrica treinada adversarialmente. A abordagem proposta mostra desempenho melhorado em comparação com sistemas de última geração nos conjuntos de avaliação da recente tarefa de aprimoramento de fala de adaptação de domínio não supervisionada (UDASE) do desafio CHiME-7. Termos de índice: aprimoramento de fala, generalização de modelo, redes adversariais generativas, conformer, previsão de métricas.

Multi-CMGAN+/+: Aproveitando a Previsão de Métricas de Qualidade de Fala Multobjetivo para Aprimoramento de Fala

Key Points

Abstract

Cite This Study

Also Consider

Also Consider