Key points are not available for this paper at this time.
사전 훈련된 자기 지도 학습(SSL) 모델은 다양한 음성 작업에서 놀라운 성공을 거두었습니다. 그러나 목표 음성 추출(TSE)에서의 잠재력은 충분히 활용되지 않았습니다. TSE는 등록 발화를 통해 혼합된 음성에서 목표 화자의 음성을 추출하는 것을 목표로 합니다. 우리는 TSE 프레임워크 내에서 입력 혼합을 처리하고 등록에서 화자 임베딩을 도출하기 위해 사전 훈련된 SSL 모델을 두 가지 목적으로 활용합니다. 본 논문에서는 TSE를 위해 SSL 모델을 효과적으로 사용하는 방법에 중점을 둡니다. 우리는 먼저 SUPERB 원칙을 따르는 새로운 TSE 다운스트림 작업을 소개합니다. 이 간단한 실험은 TSE를 위한 SSL 모델의 가능성을 보여주지만, 추출 성능은 여전히 최신 기술에 비해 떨어집니다. 그런 다음, 두 개의 SSL 기반 모듈(적응형 입력 향상기(AIE) 및 화자 인코더)을 통합하여 강력한 TSE 아키텍처를 확장합니다. 구체적으로, 제안된 AIE는 CNN 인코더의 시간 해상도를 조정하고 점진적인 업샘플링을 통해 CNN 인코더 및 변환기 블록의 중간 표현을 활용하여 미세한 특징과 계층적 특징을 모두 포착합니다. 우리의 방법은 LibriMix에서 14.0 dB의 SI-SDR 개선을 달성하며 현재의 TSE 시스템을 능가합니다. 더욱이, SSL 모델 매개변수를 포함한 전체 모델을 미세 조정함으로써 성능을 0.7 dB 더 향상시킬 수 있습니다.
Peng et al. (토,)는 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: