Los puntos clave no están disponibles para este artículo en este momento.
Las técnicas de conversión de voz representan una amenaza para los sistemas de verificación de hablantes. Para mejorar la seguridad de estos sistemas, estudiamos cómo distinguir automáticamente entre habla natural y habla sintética/convertida. Motivados por la investigación sobre el espectro de fase en la percepción del habla, en este estudio proponemos utilizar características derivadas del espectro de fase para detectar habla convertida. Las características se prueban bajo tres situaciones de entrenamiento diferentes del detector de habla convertida: a) solo se disponen de datos de habla convertida basados en modelos de mezcla gaussiana (GMM); b) solo se disponen de datos de habla convertida basados en selección de unidades; c) no se disponen de datos de habla convertida para entrenar el modelo de habla convertida. Los experimentos realizados en el corpus de evaluación de reconocimiento de hablantes (SRE) del Instituto Nacional de Estándares y Tecnología (NIST) 2006 muestran que el rendimiento de las características derivadas del espectro de fase supera enormemente a los coeficientes cepstrales en escala mel (MFCC): incluso sin datos de habla convertida para el entrenamiento, la tasa de error igual (EER) se reduce del 20.20% de los MFCC al 2.35%.
Wu et al. (Sun,) estudiaron esta cuestión.