Los puntos clave no están disponibles para este artículo en este momento.
Los métodos de mejora del habla basados en aprendizaje profundo han mostrado resultados prometedores en los últimos años. Sin embargo, en aplicaciones prácticas, el tamaño del modelo y la complejidad computacional son factores importantes que limitan su uso en productos finales. Por lo tanto, en productos que requieren mejora del habla en tiempo real con recursos limitados, como auriculares TWS, audífonos, dispositivos IoT, etc., son necesarios modelos ultra-ligeros. En este artículo, se propone una red ultra-ligera, FSPEN, para la tarea de mejora del habla en tiempo real. Proponemos una estructura de red de banda completa y sub-banda para extraer características globales y locales, y un método de extensión de camino inter-cuadro que puede mejorar la capacidad de modelado de la red mientras se preserva la complejidad. Los experimentos demuestran que la FSPEN propuesta logra un rendimiento de PESQ 2.97 en el conjunto de datos VoiceBank+Demand a 89M operaciones de multiplicar-acumular por segundo (MAC) y 79k parámetros.
Yang et al. (Mon,) estudiaron esta pregunta.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: