Key points are not available for this paper at this time.
Com o avanço da inteligência artificial, os métodos para gerar deepfakes de áudio melhoraram, mas a tecnologia por trás deles se tornou mais complexa. Apesar disso, usuários não especialistas são capazes de gerar deepfakes de áudio devido à maior acessibilidade das tecnologias mais recentes. Essas tecnologias podem ser usadas para apoiar criadores de conteúdo, cantores e empresas, como as indústrias de publicidade ou entretenimento. No entanto, também podem ser mal utilizadas para criar desinformação, fraudes envolvendo CEOs e golpes com voz. Portanto, com a crescente demanda por medidas contra seu uso indevido, é necessário um intercâmbio interdisciplinar contínuo. Este trabalho apresenta técnicas recentes para gerar deepfakes de áudio, com foco na Síntese de Texto para Fala e Conversão de Voz para não especialistas. Ele cobre conhecimentos de fundo, as últimas tendências e modelos, assim como softwares de código aberto e fechado para explorar tanto os aspectos tecnológicos quanto práticos dos deepfakes de áudio.
Choi et al. (Sat,) estudaram essa questão.