Key points are not available for this paper at this time.
O aumento da tecnologia Deepfake apresenta um desafio significativo à integridade da informação. A maioria dos métodos existentes de detecção de Deepfake depende de artefatos visuais para distinguir entre o conteúdo autêntico e o manipulado, mas não conseguem lidar com métodos de adulteração não vistos e são facilmente afetados por pós-processamento. Embora investigações recentes tenham tentado proteger proativamente imagens faciais usando técnicas de marcação profunda, os Deepfakes mais enganosos frequentemente incorporam tanto modalidades visuais quanto auditivas. Para abordar essa questão, propomos uma nova estrutura de detecção proativa de Deepfake para ambas as modalidades, áudio e visual, utilizando uma arquitetura unificada de codificador-decodificador para embutir marcas d'água audiovisuais. Além disso, um codificador de características audiovisuais é desenvolvido para alinhar a informação auditiva e visual. A marcação multimodal é projetada para embutir uma marca d'água como pista de detecção em cada modalidade, respectivamente, e realizar a verificação de ambas as modalidades juntas para detectar multimídia Deepfaked. Ao adicionar uma camada de distorção entre embutir e extrair durante o treinamento, a marca d'água embutida é capaz de ser robusta contra operações comuns de pós-processamento (por exemplo, compressão JPEG) enquanto permanece sensível a manipulações Deepfake (por exemplo, SimSwap) na verificação da marca d'água. Nossos resultados experimentais no VidTIMIT demonstraram que a estrutura de marcação proposta pode detectar efetivamente várias manipulações avançadas de Deepfake e alcançar boa robustez a diferentes tipos de distorções comuns em comparação com métodos de detecção de Deepfake passivos unimodais e multimodais.
Guo et al. (Sex,) estudaram essa questão.