Key points are not available for this paper at this time.
최근 자가 지도 학습(SSL)의 발전은 발화자 검증(SV)에서 유망한 결과를 보여주고 있습니다. 그러나 감독 시스템과의 성능 격차를 줄이는 것은 여전히 도전 과제입니다. 여러 연구에서 대규모 ASR 모델의 음성 표현이 귀중한 발화자 정보를 포함하고 있음을 관찰했습니다. 이 연구는 엔드 투 엔드 접근법에서 SSL 대비 대조 목표를 사용하여 이러한 모델을 SV에 맞추는 한계를 탐구합니다. 이후 우리는 지도 손실을 사용하여 사전 훈련된 WavLM을 미세 조정함으로써 SSL 컨텍스트에서 발화자 표현을 학습하는 프레임워크를 제안합니다. 초기 의사 레이블은 SSL DINO 기반 모델에서 파생되며, 모델 임베딩을 클러스터링하여 반복적으로 정제됩니다. 우리의 방법은 VoxCeleb1-O에서 0.99% EER을 달성하여 자가 지도 SV에서 새로운 최첨단 성능을 확립합니다. 이 성능은 0.94% EER인 우리의 감독 기준에 가까운 만큼, 이것은 SSL을 통한 SV의 감독 성능 향상에 대한 한 걸음입니다.
Miara et al. (Tue,)은 이 질문을 연구했습니다.