Key points are not available for this paper at this time.
O desentrelaçamento de voz, o processo de isolar a fala ou a voz cantada em vários subespaços latentes, cada um representando certos aspectos, possui importância significativa em diversas aplicações de processamento de áudio. Neste artigo, propomos uma abordagem eficiente de supervisão fraca para enfrentar esse desafio. Ao contrário da maioria dos métodos de supervisão fraca existentes que lidam com sequências de comprimento fixo e representações de taxa única, nossa abordagem utiliza transformadores e autoencoders variacionais para suportar sequências de comprimento variável e representações de taxa múltipla. Além disso, ao integrar uma técnica de troca para supervisão fraca pareada, mostramos que isso pode levar a um desentrelaçamento ótimo e demonstramos sua eficácia ótima em nosso modelo. A avaliação experimental no VocalSet para desentrelaçamento da voz cantada mostra a superioridade de nossa abordagem em encontrar representações de voz cantada mais desentrelaçadas. Da mesma forma, testes no LibriSpeech para reconhecimento de fala destacam a eficácia do nosso método em remover informações do falante do conteúdo da fala.
Izadi et al. (Mon,) estudaram essa questão.