Key points are not available for this paper at this time.
본 논문은 강력한 오디오-비주얼 딥 페이크 탐지 모델 개발의 도전에 대해 다룬다. 실제 사용 사례에서 새로운 세대의 알고리즘이 지속적으로 등장하고 있으며, 이러한 알고리즘은 탐지 방법 개발 중에 접하지 않은 것들이다. 이는 방법의 일반화 능력을 요구한다. 또한, 탐지 방법의 신뢰성을 보장하기 위해 모델이 비디오의 어떤 신호가 가짜임을 나타내는지를 해석하는 것이 유익하다. 이러한 고려 사항에 동기를 부여받아 우리는 표현 수준 정규화 기법으로 1종 학습을 통한 다중 흐름 융합 접근법을 제안한다. 우리는 기존의 FakeAVCeleb 데이터셋을 확장하고 재분할하여 새로운 벤치마크를 생성함으로써 오디오-비주얼 딥 페이크 탐지의 일반화 문제를 연구한다. 벤치마크는 네 가지 범주의 가짜 비디오(실제 오디오-가짜 비주얼, 가짜 오디오-가짜 비주얼, 가짜 오디오-실제 비주얼, 및 비동기 비디오)를 포함한다. 실험 결과는 우리의 접근 방식이 기준 모델에 비해 네 개의 테스트 세트에서 평균 7.31% 더 많은 보이지 않는 공격의 탐지를 개선함을 보여준다. 또한, 우리가 제안한 프레임워크는 모델이 가짜로 식별하는 모달리티를 나타내는 해석 가능성을 제공한다.
이 질문에 대해 이 등 (목요일)이 연구하였다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: