What question did this study set out to answer?

Esta investigación tiene como objetivo mejorar la mejora de la voz recuperando audio limpio de voz ruidosa mientras se mantiene la inteligibilidad y la identidad del hablante.

May 15, 2026Open Access

Mejora de la voz eficiente a través de la coincidencia de flujo con Mamba2 bidireccional con puertas

Puntos clave

Esta investigación tiene como objetivo mejorar la mejora de la voz recuperando audio limpio de voz ruidosa mientras se mantiene la inteligibilidad y la identidad del hablante.
Se propuso un marco de mejora de la voz utilizando coincidencia de flujo con un modelo Mamba2 bidireccional con puertas.
Se introdujo un bloque DiMamba para capturar el contexto pasado y futuro con control adaptativo.
Se realizaron experimentos en el conjunto de pruebas DNS Challenge y datos de prueba de VoiceBank.
Se logró un factor de tiempo real de 0.31, más de cinco veces más rápido que los modelos de difusión.
Se alcanzó una tasa de error de palabras del 4.7% y una puntuación media de opinión de 3.58 para la evaluación de calidad.
Se demostró una fuerte calidad perceptual y una preservación efectiva del hablante.

Resumen

La mejora de la voz (SE) tiene como objetivo recuperar audio limpio a partir de voz ruidosa mientras se preserva la inteligibilidad, la identidad del hablante y la eficiencia en el tiempo de ejecución. Los métodos existentes basados en modelos de lenguaje (LM) pueden perder detalles acústicos finos debido a la discretización, mientras que los modelos de difusión a menudo requieren muchos pasos iterativos de eliminación de ruido. Este estudio propone un marco de mejora de voz eficiente basado en la coincidencia de flujo y una columna vertebral Mamba2 bidireccional con puertas. El modelo predice un campo de velocidad continuo en el dominio del espectrograma Mel e introduce un bloque DiMamba que captura el contexto pasado y futuro a través de modelado de estado bidireccional de pesos compartidos con control adaptativo. Los experimentos en el conjunto de pruebas DNS Challenge y datos de prueba adicionales de VoiceBank muestran que el método propuesto logra una fuerte calidad perceptual y preservación del hablante mientras reduce sustancialmente el costo de inferencia. El modelo alcanza un factor de tiempo real de 0.31, más de cinco veces más rápido que las líneas base de difusión, y logra una tasa de error de palabras del 4.7% y una puntuación media de opinión de calidad de 3.58. Estos resultados indican que la coincidencia de flujo combinada con Mamba2 bidireccional con puertas proporciona un compromiso efectivo entre calidad y eficiencia para la mejora de voz fuera de línea.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo