Los puntos clave no están disponibles para este artículo en este momento.
El aprendizaje de representación auto-supervisado (SSL) ha alcanzado resultados SOTA en varias tareas de habla posteriores, pero las soluciones de mejora de habla (SE) basadas en SSL aún están rezagadas. Para abordar este problema, explotamos tres ideas principales: (i) generación de enmascaramiento basada en Transformer, (ii) pérdida que preserva la consistencia y (iii) estiramiento de contraste perceptual (PCS). En detalle, se introducen capas conformes, aprovechando un mecanismo de atención, para modelar eficazmente representaciones a nivel de marco y obtener la Máscara de Relación Ideal (IRM) para SE. Además, incorporamos consistencia en la función de pérdida, que procesa la entrada para tener en cuenta los efectos de inconsistencia de la reconstrucción de señales a partir del espectrograma. Finalmente, se emplea PCS para mejorar el contraste de las características de entrada y objetivo de acuerdo con la importancia perceptual. Evaluado en la tarea VoiceBank-DEMAND, la solución propuesta supera a las soluciones de SE basadas en SSL previamente cuando se prueba en varias métricas objetivas, alcanzando un puntaje PESQ SOTA de 3.54.
Khan et al. (Jue,) estudiaron esta pregunta.