Mit der stetigen Weiterentwicklung des Deep Learnings haben Fälschungstechniken ständige Innovationen erfahren, was Einzelpersonen Vorteile bietet und erhebliche negative Folgen hat. Besonders hervorzuheben ist, dass diese gefälschten Videos außergewöhnlich realistisch geworden sind, nahezu vom menschlichen Auge nicht unterscheidbar und eine gewaltige Herausforderung bei der Fälschungserkennung darstellen. Viele aktuelle Modelle zur Erkennung von Deepfakes konzentrieren sich jedoch darauf, Evaluierungsmetriken und das Design der Modellarchitektur zu verbessern, wobei oft die notwendige Allgemeingültigkeit und Praktikabilität fehlt. Wir schlagen eine Methode zur Erkennung von Deepfakes vor, die auf einem hybriden Netzwerk basiert, um diesen Herausforderungen zu begegnen. Unser Ansatz nutzt ein verbessertes EfficientNetV2S als Backbone, ersetzt das ursprüngliche Fused-Conv-Modul durch ein Tok-MLP-Modul und integriert einen Aufmerksamkeitsmechanismus am Ende des Backbones. Anschließend wird die Ausgabe des Backbones in einen Vision Transformer (VIT) zur Klassifikation eingespeist. Umfassende Arbeiten in der Datenvorverarbeitung umfassen das Trainieren unseres Modells auf drei Datensätzen: DFDC, Celeb-DF v2 und FaceForensics++. Die erzielten Ergebnisse sind außergewöhnlich wettbewerbsfähig. Darüber hinaus validiert eine visuelle Analyse der DFDC-Datensatzvideos die Praktikabilität unseres Ansatzes und liefert herausragende Ergebnisse. Zusammenfassend lässt sich sagen, dass die unermüdliche Entwicklung der Deepfake-Technologie Herausforderungen und Chancen mit sich bringt. Unsere neuartige Methode zur Erkennung von Deepfakes, die auf einem hybriden Netzwerk basiert, verbessert die Möglichkeiten vorhandener Modelle und gewährleistet Praktikabilität und Effektivität in realen Szenarien.
Deng et al. (Freitag) haben diese Frage untersucht.