Key points are not available for this paper at this time.
L'évolution rapide et la large diffusion des techniques de deepfake dans des scénarios réels nécessitent de meilleures capacités de généralisation des détecteurs de falsifications de visage. Certains travaux capturent des caractéristiques non liées à des artefacts spécifiques à la méthode, comme des indices de bord de fusion, un sur-échantillonnage accumulé, afin de renforcer la capacité de généralisation. Cependant, l'efficacité de ces méthodes peut facilement être altérée par des opérations de post-traitement telles que la compression. Inspiré par l'apprentissage par transfert, les réseaux neuronaux pré-entraînés sur d'autres tâches liées au visage à grande échelle peuvent fournir des caractéristiques utiles pour la détection de deepfakes. Par exemple, le mouvement des lèvres a été prouvé comme étant une sorte de caractéristique sémantique de haut niveau robuste et de bon transfert, qui peut être apprise à partir de la tâche de lecture sur les lèvres. Cependant, la méthode existante pré-entraîne le modèle d'extraction des caractéristiques des lèvres de manière supervisée, ce qui nécessite de nombreuses ressources humaines pour l'annotation des données et augmente la difficulté d'obtention des données d'entraînement. Dans cet article, nous proposons une méthode d'apprentissage contrastif audio-visuel basée sur un transformateur auto-supervisé. La méthode proposée apprend des représentations de mouvement des lèvres en encourageant les représentations vidéo et audio appariées à être proches, tandis que les représentations non appariées doivent être diversifiées. Après un pré-entraînement avec notre méthode, le modèle sera ensuite partiellement affiné pour la tâche de détection de deepfake. D'importantes expériences montrent que notre méthode auto-supervisée performe de manière comparable, voire meilleure que son homologue de pré-entraînement supervisé.
Zhao et al. (Mercredi,) ont étudié cette question.