Les vidéos d'échange de visages basées sur l'apprentissage profond, largement connues sous le nom de deepfakes, ont attiré une grande attention en raison de leur menace pour la crédibilité de l'information. Les travaux récents se concentrent principalement sur le problème de la détection des deepfakes qui vise à les différencier de manière fiable des véritables, de manière objective. D'autre part, la perception subjective des deepfakes, en particulier sa modélisation computationnelle et son imitation, constitue également un problème significatif mais manque d'études adéquates. Dans cet article, nous nous concentrons sur l'évaluation du photo-réalisme des deepfakes, qui est définie comme l'évaluation automatique du photo-réalisme des deepfakes qui approche la perception humaine des deepfakes. Cela est important pour évaluer la qualité et la capacité de tromperie des deepfakes, qui peuvent être utilisées pour prédire l'influence des deepfakes sur Internet, et cela a également un potentiel d'amélioration du processus de génération de deepfakes en servant de critique. Cet article promeut cette nouvelle direction en présentant une référence complète appelée DREAM, qui signifie Deepfake photoREalism AssessMent. Elle se compose d'un ensemble de données de vidéos deepfake de qualité diverse, d'une annotation à grande échelle comprenant 140 000 scores de photo-réalisme et des descriptions textuelles obtenues de 3 500 annotateurs humains, et d'une évaluation et d'une analyse complètes de 18 méthodes d'évaluation de photo-réalisme représentatives, y compris des méthodes récentes basées sur des modèles de langue de grande vision et une méthode CLIP nouvellement proposée alignée sur les descriptions. La référence et les perspectives incluses dans cette étude peuvent jeter les bases de recherches futures dans cette direction et dans d'autres domaines liés. Nous mettons le jeu de données à la disposition de la communauté de recherche sur https://github.com/bomb2peng/DREAM-A-Benchmark-Study-for-Deepfake-photoREalism-AssessMent.
Peng et al. (Jeudi,) ont étudié cette question.