March 31, 2024Open Access

다중 모달 추출 사전 훈련을 통한 실제 세계 능동 화자 탐지 향상

Key Points

Key points are not available for this paper at this time.

Abstract

오디오-비주얼 능동 화자 탐지(AV-ASD)는 한 명 이상의 사람이 있는 장면에서 어떤 보이는 얼굴이 말하고 있는지를 식별하는 것을 목표로 합니다. 대부분의 기존 AV-ASD 방법은 음성과 입술의 일치를 포착하는 데 중점을 두고 있습니다. 그러나 실제 AV-ASD 시나리오에서의 문제를 다루는 데에는 눈에 띄는 격차가 있습니다. 이러한 경우에는 저품질의 노이즈가 많은 비디오가 존재하기 때문에, 선택적 청취 능력이 없는 AV-ASD 시스템은 혼합 오디오 입력에서 방해가 되는 음성 성분을 효과적으로 필터링하는 데 부족합니다. 본 논문에서는 노이즈 제거 능력을 학습하기 위해 오디오-비주얼 목표 화자 추출로 사전 훈련된 `MuSED`라는 다중 모달 화자 추출-탐지 프레임워크를 제안하며, 이후 AV-ASD 작업으로 미세 조정됩니다. 또한, 다중 모달 정보를 보다 잘 포착하고 모달리티 손실과 같은 실제 문제를 처리하기 위해 MuSED는 시간 도메인에서 직접 모델링되고 다중 모달 더하기-빼기 증강 전략이 통합됩니다. 우리의 실험은 MuSED가 최신 AV-ASD 방법보다 상당히 우수하며, AVA-ActiveSpeaker 데이터셋에서 95.6% mAP, ASW 데이터셋에서 98.3% AP, Columbia AV-ASD 데이터셋에서 97.9% F1을 각각 달성함을 보여줍니다. 우리는 코드도 이후 공개할 예정입니다.

다중 모달 추출 사전 훈련을 통한 실제 세계 능동 화자 탐지 향상

Key Points

Abstract

Cite This Study

Also Consider

Also Consider