La mejora de la voz (SE) tiene como objetivo recuperar audio limpio a partir de voz ruidosa mientras se preserva la inteligibilidad, la identidad del hablante y la eficiencia en el tiempo de ejecución. Los métodos existentes basados en modelos de lenguaje (LM) pueden perder detalles acústicos finos debido a la discretización, mientras que los modelos de difusión a menudo requieren muchos pasos iterativos de eliminación de ruido. Este estudio propone un marco de mejora de voz eficiente basado en la coincidencia de flujo y una columna vertebral Mamba2 bidireccional con puertas. El modelo predice un campo de velocidad continuo en el dominio del espectrograma Mel e introduce un bloque DiMamba que captura el contexto pasado y futuro a través de modelado de estado bidireccional de pesos compartidos con control adaptativo. Los experimentos en el conjunto de pruebas DNS Challenge y datos de prueba adicionales de VoiceBank muestran que el método propuesto logra una fuerte calidad perceptual y preservación del hablante mientras reduce sustancialmente el costo de inferencia. El modelo alcanza un factor de tiempo real de 0.31, más de cinco veces más rápido que las líneas base de difusión, y logra una tasa de error de palabras del 4.7% y una puntuación media de opinión de calidad de 3.58. Estos resultados indican que la coincidencia de flujo combinada con Mamba2 bidireccional con puertas proporciona un compromiso efectivo entre calidad y eficiencia para la mejora de voz fuera de línea.
Yuan et al. (Mon,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: