Key points are not available for this paper at this time.
Enquanto misturas de múltiplos falantes em campo distante são gravadas, cada falante pode usar um microfone de proximidade para que misturas de proximidade possam ser gravadas ao mesmo tempo. Embora cada mistura de proximidade tenha uma alta relação sinal-ruído (SNR) do usuário, ela tem um alcance de aplicações muito limitado, pois também contém fala de interferência significativa por outros falantes e não é suficientemente limpa. Nesse contexto, propomos uma nova tarefa chamada redução de interferência (CTR) que tem como objetivo reduzir a fala de interferência, e uma nova solução chamada CTRnet que é baseada em separação de fala neural não supervisionada ou fraca. No CTRnet não supervisionado, misturas de proximidade e de campo distante são empilhadas como entrada para uma DNN para estimar a fala de proximidade de cada falante. É treinado de maneira não supervisionada e discriminativa, de modo que a estimativa da DNN para cada falante possa ser filtrada linearmente para cancelar a fala de interferência do falante capturada em outros microfones. No CTRnet fraco, assumimos a disponibilidade das marcas de tempo de atividade de cada falante durante o treinamento e as utilizamos para melhorar o treinamento do CTRnet não supervisionado. Resultados de avaliação em uma tarefa de CTR simulada com dois falantes e em uma tarefa real de separação e reconhecimento de fala mostram a eficácia e o potencial do CTRnet.
Wang et al. (qui,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: