Key points are not available for this paper at this time.
La propagation des vidéos deepfake a soulevé de sérieuses inquiétudes, notamment en raison de leur potentiel à circuler des informations erronées et à compromettre l'intégrité des médias numériques. En réponse à ce défi, nous présentons le Générateur de Vision Convolutionnel Transformer (GenConViT) comme une solution robuste pour la détection de vidéos deepfake. GenConViT intègre les forces des modèles ConvNeXt et Swin Transformer avec un réseau de neurones convolutionnel 3D (CNN) pour extraire des caractéristiques pertinentes. Il exploite en outre les capacités des Autoencodeurs et des Autoencodeurs Variationnels pour discerner des motifs dans la distribution latente des données. La performance de notre modèle est validée grâce à un entraînement rigoureux et à une évaluation sur quatre ensembles de données distincts : DFDC, FF++, DeepFakeTIMIT et Celeb-DF (v2). Les résultats parlent d'eux-mêmes, GenConViT atteignant une précision de classification, des scores F1 et des valeurs AUC remarquablement élevés. Il relève le défi de la généralisabilité dans la détection des deepfakes en différenciant efficacement un large éventail de vidéos falsifiées tout en préservant l'intégrité des médias numériques. En moyenne, le modèle GenConViT atteint une précision de 95,6 % et une valeur AUC impressionnante de 99,3 % sur les ensembles de données que nous avons examinés. Cela souligne sa capacité à détecter de manière robuste le contenu deepfake et à maintenir l'intégrité des médias numériques. URN:NBN:sciencein.jist.2024.v12.820
Patil et al. (Mar,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: