Key points are not available for this paper at this time.
오디오-비주얼 능동 화자 탐지(AV-ASD)는 한 명 이상의 사람이 있는 장면에서 어떤 보이는 얼굴이 말하고 있는지를 식별하는 것을 목표로 합니다. 대부분의 기존 AV-ASD 방법은 음성과 입술의 일치를 포착하는 데 중점을 두고 있습니다. 그러나 실제 AV-ASD 시나리오에서의 문제를 다루는 데에는 눈에 띄는 격차가 있습니다. 이러한 경우에는 저품질의 노이즈가 많은 비디오가 존재하기 때문에, 선택적 청취 능력이 없는 AV-ASD 시스템은 혼합 오디오 입력에서 방해가 되는 음성 성분을 효과적으로 필터링하는 데 부족합니다. 본 논문에서는 노이즈 제거 능력을 학습하기 위해 오디오-비주얼 목표 화자 추출로 사전 훈련된 `MuSED`라는 다중 모달 화자 추출-탐지 프레임워크를 제안하며, 이후 AV-ASD 작업으로 미세 조정됩니다. 또한, 다중 모달 정보를 보다 잘 포착하고 모달리티 손실과 같은 실제 문제를 처리하기 위해 MuSED는 시간 도메인에서 직접 모델링되고 다중 모달 더하기-빼기 증강 전략이 통합됩니다. 우리의 실험은 MuSED가 최신 AV-ASD 방법보다 상당히 우수하며, AVA-ActiveSpeaker 데이터셋에서 95.6% mAP, ASW 데이터셋에서 98.3% AP, Columbia AV-ASD 데이터셋에서 97.9% F1을 각각 달성함을 보여줍니다. 우리는 코드도 이후 공개할 예정입니다.
Tao et al. (Sun,)은 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: