What question did this study set out to answer?

A pesquisa tem como objetivo desenvolver um método de detecção de deepfakes eficiente que equilibre precisão e custo computacional.

April 11, 2026Open Access

Modulação de Percepção Dinâmica em Múltiplas Escalas e Orientação Contextual para Detecção Eficiente de Deepfakes

Key Points

A pesquisa tem como objetivo desenvolver um método de detecção de deepfakes eficiente que equilibre precisão e custo computacional.
Proposto uma arquitetura leve em quatro estágios para extração de características.
Implementado um mecanismo de percepção dinâmica em múltiplas escalas com módulos de atenção.
Introduzida a Convolução Dinâmica Orientada por Contexto para melhor modulação de características.
Avaliada a performance do modelo em conjuntos de dados do FaceForensics++ e do DeepFake Detection Challenge.
Alcançado um AUC de 91,98% no FaceForensics++ e 93,50% no DeepFake Detection Challenge.
Superou métodos existentes de detecção leve em termos de precisão e eficiência.
Requereu apenas 3,06 M de parâmetros e 1,36 G FLOPs para uma carga computacional mínima.

Abstract

A tecnologia deepfake representa ameaças significativas à autenticidade da informação e à confiança social, necessitando de métodos de detecção eficazes. No entanto, os métodos de detecção existentes dependem predominantemente de arquiteturas de rede de alta complexidade que, apesar de serem precisas em ambientes controlados, sofrem com custos computacionais proibitivos que dificultam a implementação em cenários com recursos limitados, como plataformas de mídia social. Para abordar esse dilema de eficiência e precisão, propomos um método leve de detecção de forjaturas faciais que aprende sistematicamente traços de forjatura em múltiplas escalas. Nossa abordagem apresenta uma arquitetura leve em quatro estágios que extrai hierarquicamente características de texturas locais a semânticas globais, imitando o sistema visual humano. Dentro de cada estágio, um mecanismo de percepção dinâmica em múltiplas escalas divide os canais de características em grupos paralelos equipados com módulos de atenção leves para capturar indícios de forjatura que abrangem anomalias em nível de pixel, estruturas locais, padrões regionais e inconsistências semânticas. Além disso, em vez de contar com a fusão convencional de características que corre o risco de suprimir artefatos sutis, introduzimos uma nova Convolução Dinâmica Orientada por Contexto. Esse mecanismo utiliza anomalias espaciais de nível médio como âncoras ativas para modular dinamicamente filtros semânticos de alto nível, com o objetivo de mitigar a desconexão entre o conteúdo semântico e as evidências de forjatura. Nosso modelo alcança um desempenho robusto, apresentando um AUC de 91,98% no FaceForensics++ e 93,50% no DeepFake Detection Challenge, superando os métodos leves atuais de última geração. Além disso, em comparação com os pesados Vision Transformers, nosso modelo alcança uma melhor relação custo-benefício em desempenho, exigindo apenas 3,06 M de parâmetros e 1,36 G FLOPs, tornando-se altamente adequado para implementação em tempo real e com recursos limitados.

Modulação de Percepção Dinâmica em Múltiplas Escalas e Orientação Contextual para Detecção Eficiente de Deepfakes

Key Points

Abstract

Cite This Study

Also Consider

Also Consider