Los puntos clave no están disponibles para este artículo en este momento.
Los métodos existentes de mejora de habla (SE) basados en aprendizaje profundo suelen conllevar una alta complejidad computacional. En este artículo, proponemos dividir el audio de entrada en señales de sub-banda adyacentes y equidistantes mediante un banco de filtros de análisis, y alimentar estas señales de sub-banda a un modelo de SE para recuperar las señales de sub-banda de ruido reducido. Estas señales de sub-banda desruido se reconstruyen nuevamente en la señal de banda completa mediante un banco de filtros de síntesis. Mientras tanto, diseñamos un módulo de fusión de información de banda completa para complementar la característica de sub-banda con información espectral de banda completa. También ideamos un módulo de predicción del espectro de banda completa para predecir el espectro objetivo de banda completa, lo que ayuda en el entrenamiento del modelo. Adicionalmente, se introduce una pérdida de reconstrucción de forma de onda pseudo ruidosa (PNWR) para un mejor rendimiento de SE. Los experimentos demuestran que el esquema propuesto reduce el volumen computacional en aproximadamente la mitad con casi ninguna pérdida de rendimiento. El sistema final de SE (Sub-PNWR) supera a los métodos avanzados actuales.
Zhang et al. (Sun,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: