Key points are not available for this paper at this time.
Modelos de síntese de fala de alta qualidade podem ser usados para espalhar desinformação ou imitar vozes. A marcação de água em áudio pode combater o uso indevido ao incorporar uma assinatura rastreável no áudio gerado. No entanto, as marcas d'água existentes em áudio geralmente demonstram robustez apenas a um pequeno conjunto de transformações do áudio marcado. Para abordar isso, propomos o MaskMark, uma técnica de marcação de água digital em áudio baseada em rede neural otimizada para fala. O MaskMark incorpora um vetor de chave secreta no áudio através de uma máscara espectrograma multiplicativa, permitindo a detecção de segmentos de fala marcados mesmo sob substanciais transformações de processamento de sinal ou baseadas em redes neurais. Comparações com uma linha de base de ponta em corpora de fala natural e sintética e uma avaliação de sujeitos humanos demonstram a superior robustez do MaskMark na detecção de fala marcada, mantendo alta transparência perceptual.
O’Reilly et al. (Mon,) estudaram essa questão.